論文の概要: InstaDA: Augmenting Instance Segmentation Data with Dual-Agent System
- arxiv url: http://arxiv.org/abs/2509.02973v1
- Date: Wed, 03 Sep 2025 03:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.401639
- Title: InstaDA: Augmenting Instance Segmentation Data with Dual-Agent System
- Title(参考訳): InstaDA: デュアルエージェントシステムによるインスタンスセグメンテーションデータの拡張
- Authors: Xianbao Hou, Yonghao He, Zeyd Boukhers, John See, Hu Su, Wei Sui, Cong Yang,
- Abstract要約: InstaDAはトレーニング不要のDual-Agentシステムで、インスタンスセグメンテーションデータセットを拡張するように設計されている。
Text-Agent(T-Agent)は,大規模言語モデル(LLM)と拡散モデルとの協調を通じて,データの多様性を向上させる。
Image-Agent(I-Agent)は、トレーニングイメージに新しい条件付きインスタンスを生成してトレーニングセットを拡張する。
- 参考スコア(独自算出の注目度): 15.916510585915406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acquiring high-quality instance segmentation data is challenging due to the labor-intensive nature of the annotation process and significant class imbalances within datasets. Recent studies have utilized the integration of Copy-Paste and diffusion models to create more diverse datasets. However, these studies often lack deep collaboration between large language models (LLMs) and diffusion models, and underutilize the rich information within the existing training data. To address these limitations, we propose InstaDA, a novel, training-free Dual-Agent system designed to augment instance segmentation datasets. First, we introduce a Text-Agent (T-Agent) that enhances data diversity through collaboration between LLMs and diffusion models. This agent features a novel Prompt Rethink mechanism, which iteratively refines prompts based on the generated images. This process not only fosters collaboration but also increases image utilization and optimizes the prompts themselves. Additionally, we present an Image-Agent (I-Agent) aimed at enriching the overall data distribution. This agent augments the training set by generating new instances conditioned on the training images. To ensure practicality and efficiency, both agents operate as independent and automated workflows, enhancing usability. Experiments conducted on the LVIS 1.0 validation set indicate that InstaDA achieves significant improvements, with an increase of +4.0 in box average precision (AP) and +3.3 in mask AP compared to the baseline. Furthermore, it outperforms the leading model, DiverGen, by +0.3 in box AP and +0.1 in mask AP, with a notable +0.7 gain in box AP on common categories and mask AP gains of +0.2 on common categories and +0.5 on frequent categories.
- Abstract(参考訳): アノテーションプロセスの労働集約性とデータセット内の重要なクラス不均衡のため、高品質なインスタンスセグメンテーションデータを取得することは難しい。
最近の研究は、より多様なデータセットを作成するために、コピーペーストと拡散モデルの統合を活用している。
しかしながら、これらの研究は、大きな言語モデル(LLM)と拡散モデルとの深い協調を欠いていることが多く、既存のトレーニングデータ内の豊富な情報を未利用にしている。
これらの制約に対処するために、インスタンスセグメンテーションデータセットを拡張するために設計された、新しいトレーニング不要なDual-AgentシステムであるInstaDAを提案する。
まず,LLMと拡散モデルとの協調によるデータ多様性の向上を目的としたテキストエージェント(T-Agent)を提案する。
このエージェントは、生成された画像に基づいてプロンプトを反復的に洗練する新しいPrompt Rethinkメカニズムを特徴とする。
このプロセスはコラボレーションを促進するだけでなく、画像の利用率を高め、プロンプト自体を最適化する。
さらに,全データ分布の充実を目的とした画像アジェント(I-Agent)を提案する。
このエージェントは、トレーニングイメージに条件付けされた新しいインスタンスを生成してトレーニングセットを増強する。
実用性と効率性を確保するため、両方のエージェントは独立して自動化されたワークフローとして機能し、ユーザビリティを高める。
LVIS 1.0の検証セットで実施された実験は、InstaDAがベースラインと比較して、ボックス平均精度(AP)が+4.0、マスクAPが+3.3、大幅な改善を達成していることを示している。
さらに、DiverGenは、ボックスAPで+0.3、マスクAPで+0.1、共通カテゴリで+0.7、共通カテゴリで+0.2、頻繁なカテゴリで+0.5である。
関連論文リスト
- Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。
動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。
これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-14T16:19:00Z) - Ali-AUG: Innovative Approaches to Labeled Data Augmentation using One-Step Diffusion Model [0.14999444543328289]
Ali-AUGは、産業応用における効率的なラベル付きデータ拡張のための新しい単一ステップ拡散モデルである。
提案手法は, 正確な特徴挿入を伴う合成ラベル付き画像を生成することで, 限られたラベル付きデータの課題に対処する。
論文 参考訳(メタデータ) (2024-10-24T12:12:46Z) - DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data [48.31817189858086]
生成データは、モデルが学習できるデータ分布を拡大し、過剰適合を軽減できると主張している。
DiverGenは強力なX-Pasteよりも優れており、すべてのカテゴリで+1.1ボックスAPと+1.1マスクAPを達成でき、まれなカテゴリでは+1.9ボックスAPと+2.5マスクAPを達成できる。
論文 参考訳(メタデータ) (2024-05-16T15:30:18Z) - An Extensible Framework for Open Heterogeneous Collaborative Perception [58.70875361688463]
協調的な知覚は、単一エージェントの知覚の限界を緩和することを目的としている。
本稿では,新しい異種エージェントを協調認識に適応させる方法を提案する。
本稿では,新しい協調認識フレームワークであるHeterogeneous ALliance(HEAL)を提案する。
論文 参考訳(メタデータ) (2024-01-25T05:55:03Z) - EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance
Text Classification [34.15923302216751]
本稿では,効率的なテキスト分類を支援するための簡易でプラグイン型のデータ拡張フレームワーク EPiDA を提案する。
EPiDAは、データ生成を制御するために、相対エントロピー(REM)と条件最小エントロピー(CEM)の2つのメカニズムを採用している。
EPiDAは効率的な分類訓練のための効率的で継続的なデータ生成をサポートする。
論文 参考訳(メタデータ) (2022-04-24T06:53:48Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。