論文の概要: SynthSeg-Agents: Multi-Agent Synthetic Data Generation for Zero-Shot Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2512.15310v1
- Date: Wed, 17 Dec 2025 10:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.947581
- Title: SynthSeg-Agents: Multi-Agent Synthetic Data Generation for Zero-Shot Weakly Supervised Semantic Segmentation
- Title(参考訳): SynthSeg-Agents:Zero-Shot Weakly Supervised Semantic Segmentationのためのマルチエージェント合成データ生成
- Authors: Wangyu Wu, Zhenhong Chen, Xiaowei Huang, Fei Ma, Jimin Xiao,
- Abstract要約: 画像レベルのラベルを持つ弱スーパービジョンセマンティックリファイン (WSSS) は、高密度アノテーションを必要とせずにピクセルレベルの予測を生成することを目的としている。
我々は,Large Language Models (LLM) によって駆動されるフレームワークであるSynthSeg Agentsを提案する。
我々のフレームワークは、実画像の監督なしに高品質なトレーニングデータを生成する。
- 参考スコア(独自算出の注目度): 34.573035647669876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly Supervised Semantic Segmentation (WSSS) with image level labels aims to produce pixel level predictions without requiring dense annotations. While recent approaches have leveraged generative models to augment existing data, they remain dependent on real world training samples. In this paper, we introduce a novel direction, Zero Shot Weakly Supervised Semantic Segmentation (ZSWSSS), and propose SynthSeg Agents, a multi agent framework driven by Large Language Models (LLMs) to generate synthetic training data entirely without real images. SynthSeg Agents comprises two key modules, a Self Refine Prompt Agent and an Image Generation Agent. The Self Refine Prompt Agent autonomously crafts diverse and semantically rich image prompts via iterative refinement, memory mechanisms, and prompt space exploration, guided by CLIP based similarity and nearest neighbor diversity filtering. These prompts are then passed to the Image Generation Agent, which leverages Vision Language Models (VLMs) to synthesize candidate images. A frozen CLIP scoring model is employed to select high quality samples, and a ViT based classifier is further trained to relabel the entire synthetic dataset with improved semantic precision. Our framework produces high quality training data without any real image supervision. Experiments on PASCAL VOC 2012 and COCO 2014 show that SynthSeg Agents achieves competitive performance without using real training images. This highlights the potential of LLM driven agents in enabling cost efficient and scalable semantic segmentation.
- Abstract(参考訳): 画像レベルラベル付き弱監視セマンティックセマンティックセグメンテーション(WSSS)は、高密度アノテーションを必要とせずにピクセルレベルの予測を生成することを目的としている。
最近のアプローチでは、生成モデルを利用して既存のデータを拡張するが、実際のトレーニングサンプルに依存している。
本稿では,Zero Shot Weakly Supervised Semantic Segmentation (ZSWSSS)を提案するとともに,Large Language Models (LLM) によって駆動されるマルチエージェントフレームワークであるSynthSeg Agentsを提案する。
SynthSeg Agentsは、2つのキーモジュール、Self Refine Prompt Agentと Image Generation Agentから構成される。
Self Refine Prompt Agentは、CLIPベースの類似性と近隣の多様性フィルタリングによってガイドされる、反復的精細化、記憶機構、即時宇宙探索を通じて、多種多様で意味豊かな画像プロンプトを自律的に作成する。
これらのプロンプトは、視覚言語モデル(VLM)を利用して候補画像を合成する画像生成エージェントに渡される。
凍結したCLIPスコアリングモデルを用いて、高品質なサンプルを選択するとともに、ViTベースの分類器をさらに訓練して、セマンティック精度を改善した合成データセット全体を再現する。
我々のフレームワークは、実画像の監督なしに高品質なトレーニングデータを生成する。
PASCAL VOC 2012とCOCO 2014の実験では、SynthSeg Agentsは実際のトレーニングイメージを使わずに競争性能を達成している。
このことは、低コストでスケーラブルなセマンティックセグメンテーションを可能にするLLM駆動エージェントの可能性を強調している。
関連論文リスト
- Image Augmentation Agent for Weakly Supervised Semantic Segmentation [32.40055370439922]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は画像レベルラベルのみを用いて顕著な進歩を遂げた。
本稿では,データ生成の観点からWSSSを拡張できるIAA(Image Augmentation Agent)という新しいアプローチを提案する。
IAAは主に、大きな言語モデル(LLM)と拡散モデルを利用してWSSS用の追加画像を自動的に生成する拡張エージェントを設計する。
論文 参考訳(メタデータ) (2024-12-29T11:32:55Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training? [57.42016037768947]
完全合成テキストイメージペアに基づいてトレーニングされたCLIPモデルであるSynthCLIPを提案する。
我々は人間の介入なしに画像と対応するキャプションの合成データセットを大規模に生成する。
論文 参考訳(メタデータ) (2024-02-02T18:59:58Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - One-Shot Synthesis of Images and Segmentation Masks [28.119303696418882]
画像合成とGAN(Generative Adversarial Network)とのセグメンテーションマスクの併用により,画像データをピクセル単位のアノテーションで収集する作業の削減が期待されている。
高忠実な画像マスク合成を学習するために、既存のGANアプローチは、大量の画像データを必要とする事前学習フェーズを必要とする。
我々は,1ショット方式で生成した画像に正確に整合したセグメンテーションマスクの合成を可能にするOSMISモデルを提案する。
論文 参考訳(メタデータ) (2022-09-15T18:00:55Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。