論文の概要: Guideline-Consistent Segmentation via Multi-Agent Refinement
- arxiv url: http://arxiv.org/abs/2509.04687v1
- Date: Thu, 04 Sep 2025 22:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.42151
- Title: Guideline-Consistent Segmentation via Multi-Agent Refinement
- Title(参考訳): マルチエージェントリファインメントによるガイドライン一貫性セグメンテーション
- Authors: Vanshika Vats, Ashwani Rathee, James Davis,
- Abstract要約: 本稿では,反復型Worker-Supervisorリファインメントアーキテクチャ内で汎用視覚言語モデルをコーディネートするマルチエージェント・トレーニングフリーフレームワークを提案する。
Workerはセグメンテーションを実行し、スーパーバイザは取得したガイドラインに対してそれを批判し、軽量な強化学習停止ポリシーはループをいつ終了するかを決定する。
提案手法は, 最先端のベースラインよりも優れ, 強力な一般化と命令順守を示す。
- 参考スコア(独自算出の注目度): 4.501547677532766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation in real-world applications often requires not only accurate masks but also strict adherence to textual labeling guidelines. These guidelines are typically complex and long, and both human and automated labeling often fail to follow them faithfully. Traditional approaches depend on expensive task-specific retraining that must be repeated as the guidelines evolve. Although recent open-vocabulary segmentation methods excel with simple prompts, they often fail when confronted with sets of paragraph-length guidelines that specify intricate segmentation rules. To address this, we introduce a multi-agent, training-free framework that coordinates general-purpose vision-language models within an iterative Worker-Supervisor refinement architecture. The Worker performs the segmentation, the Supervisor critiques it against the retrieved guidelines, and a lightweight reinforcement learning stop policy decides when to terminate the loop, ensuring guideline-consistent masks while balancing resource use. Evaluated on the Waymo and ReasonSeg datasets, our method notably outperforms state-of-the-art baselines, demonstrating strong generalization and instruction adherence.
- Abstract(参考訳): 実世界の応用におけるセマンティックセグメンテーションは、しばしば正確なマスクだけでなく、テキストラベリングガイドラインへの厳密な遵守を必要とする。
これらのガイドラインは一般的に複雑で長いもので、人間と自動ラベリングの両方が忠実に従わないことが多い。
伝統的なアプローチは、ガイドラインが進化するにつれて繰り返されなければならない、高価なタスク固有のトレーニングに依存します。
最近のオープン語彙セグメンテーション法は単純なプロンプトで優れているが、複雑なセグメンテーションルールを規定する項長ガイドラインのセットに直面すると、しばしば失敗する。
そこで我々は,反復型ワーカ・スーパーバイザ・リファインメントアーキテクチャ内で汎用視覚言語モデルをコーディネートするマルチエージェント・トレーニングフリーフレームワークを提案する。
作業者はセグメンテーションを行い、管理者は検索したガイドラインに対してそれを批判し、軽量強化学習停止ポリシーはいつループを終了するかを決定し、リソース使用のバランスを保ちながらガイドラインに一貫性のあるマスクを確保する。
WaymoとReasonSegのデータセットに基づいて評価し、この手法は最先端のベースラインよりも優れ、強力な一般化と命令順守を示す。
関連論文リスト
- Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文 参考訳(メタデータ) (2025-03-10T16:26:11Z) - Hierarchical Prompt Decision Transformer: Improving Few-Shot Policy Generalization with Global and Adaptive Guidance [14.898255296225337]
本稿では,検索拡張によって実現した階層的プロンプト手法を提案する。
本手法は,2層のソフトトークンを導出プロンプトとして学習する。
アダプティブトークンは、キュレートされたデモセグメントから動的に取得され、コンテキスト対応のガイダンスが保証される。
論文 参考訳(メタデータ) (2024-12-01T22:02:07Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Self-supervised Meta-Prompt Learning with Meta-Gradient Regularization
for Few-shot Generalization [40.45470744120691]
MEta-gradient regularization for few-shot generalization (SUPMER)による自己改善メタプロンプト学習フレームワーク
本稿では,Meta-gradient regularization for few-shot generalization (SUPMER)を用いた自己改善メタプロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-22T05:04:21Z) - Generative Prompt Tuning for Relation Classification [21.027631157115135]
本稿では,関係分類を埋め込み問題として再構成する新しい生成的プロンプトチューニング手法を提案する。
さらに,エンティティ誘導型復号化と識別的関係スコアリングを設計し,推論中の関係を効果的かつ効率的に生成・調整する。
論文 参考訳(メタデータ) (2022-10-22T12:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。