論文の概要: Gen-n-Val: Agentic Image Data Generation and Validation
- arxiv url: http://arxiv.org/abs/2506.04676v1
- Date: Thu, 05 Jun 2025 06:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.567174
- Title: Gen-n-Val: Agentic Image Data Generation and Validation
- Title(参考訳): Gen-n-Val:エージェント画像生成と検証
- Authors: Jing-En Huang, I-Sheng Fang, Tzuhsuan Huang, Chih-Yu Wang, Jun-Cheng Chen,
- Abstract要約: Gen-n-Valは、高品質で単一のオブジェクトマスクと多様なバックグラウンドを生成する新しいエージェントデータ生成フレームワークである。
MosaicFusionのような最先端の合成データアプローチと比較して、我々の手法は無効な合成データを50%から7%に削減する。
Gen-n-Val は YOLO11m を用いたオープン語彙オブジェクト検出ベンチマークにおいて YOLO-Worldv2-M よりも大幅に改善されている(7.1% mAP)。
- 参考スコア(独自算出の注目度): 13.591432708107302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large Language Models (LLMs) and Vision Large Language Models (VLLMs) have demonstrated impressive performance as agents across various tasks while data scarcity and label noise remain significant challenges in computer vision tasks, such as object detection and instance segmentation. A common solution for resolving these issues is to generate synthetic data. However, current synthetic data generation methods struggle with issues, such as multiple objects per mask, inaccurate segmentation, and incorrect category labels, limiting their effectiveness. To address these issues, we introduce Gen-n-Val, a novel agentic data generation framework that leverages Layer Diffusion (LD), LLMs, and VLLMs to produce high-quality, single-object masks and diverse backgrounds. Gen-n-Val consists of two agents: (1) The LD prompt agent, an LLM, optimizes prompts for LD to generate high-quality foreground instance images and segmentation masks. These optimized prompts ensure the generation of single-object synthetic data with precise instance masks and clean backgrounds. (2) The data validation agent, a VLLM, which filters out low-quality synthetic instance images. The system prompts for both agents are refined through TextGrad. Additionally, we use image harmonization to combine multiple instances within scenes. Compared to state-of-the-art synthetic data approaches like MosaicFusion, our approach reduces invalid synthetic data from 50% to 7% and improves performance by 1% mAP on rare classes in COCO instance segmentation with YOLOv9c and YOLO11m. Furthermore, Gen-n-Val shows significant improvements (7. 1% mAP) over YOLO-Worldv2-M in open-vocabulary object detection benchmarks with YOLO11m. Moreover, Gen-n-Val improves the performance of YOLOv9 and YOLO11 families in instance segmentation and object detection.
- Abstract(参考訳): 近年,Large Language Models (LLMs) とVision Large Language Models (VLLMs) は,オブジェクト検出やインスタンスセグメンテーションといったコンピュータビジョンタスクにおいて,データ不足やラベルノイズが重要な課題であるのに対して,様々なタスクにまたがるエージェントとしての印象的なパフォーマンスを示している。
これらの問題を解決するための一般的な解決策は、合成データを生成することである。
しかし、現在の合成データ生成手法は、マスクごとの複数のオブジェクト、不正確なセグメンテーション、不正確なカテゴリラベルといった問題に対処し、その有効性を制限している。
これらの問題に対処するために、我々は、Layer Diffusion (LD), LLM, VLLMsを活用する新しいエージェントデータ生成フレームワークGen-n-Valを紹介した。
LDプロンプトエージェントであるLDLMは、LDのプロンプトを最適化し、高品質なフォアグラウンドインスタンスイメージとセグメンテーションマスクを生成する。
これらの最適化されたプロンプトは、正確なインスタンスマスクとクリーンな背景を持つ単一オブジェクト合成データの生成を保証する。
2) 高品質な合成インスタンスイメージをフィルタリングするデータ検証エージェントであるVLLM。
両方のエージェントのプロンプトはTextGradを通じて洗練される。
さらに、シーン内の複数のインスタンスを組み合わせるために、画像調和を使用します。
MosaicFusionのような最先端の合成データアプローチと比較して, 無効な合成データを50%から7%に削減し, YOLOv9cおよびYOLO11mを用いたCOCOインスタンスセグメンテーションにおいて, 稀なクラスにおける1%mAPの性能を向上する。
さらに、Gen-n-Val は YOLO11m を用いたオープン語彙オブジェクト検出ベンチマークにおいて YOLO-Worldv2-M よりも大幅に改善した(7.1% mAP)。
さらに、Gen-n-Valはインスタンスセグメンテーションとオブジェクト検出におけるYOLOv9およびYOLO11ファミリーのパフォーマンスを改善している。
関連論文リスト
- Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation [70.95380821618711]
Dichotomous Image (DIS) タスクは高度に正確なアノテーションを必要とする。
現在の生成モデルとテクニックは、シーンのずれ、ノイズによるエラー、限られたトレーニングサンプルの変動といった問題に苦慮している。
多様な正確なデータセットを生成するためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-26T06:37:25Z) - Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。
新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:38:37Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。