論文の概要: RSAgent: Learning to Reason and Act for Text-Guided Segmentation via Multi-Turn Tool Invocations
- arxiv url: http://arxiv.org/abs/2512.24023v1
- Date: Tue, 30 Dec 2025 06:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.305968
- Title: RSAgent: Learning to Reason and Act for Text-Guided Segmentation via Multi-Turn Tool Invocations
- Title(参考訳): RSAgent:マルチTurnツール呼び出しによるテキストガイドセグメンテーションのための推論と行為の学習
- Authors: Xingqi He, Yujie Zhang, Shuyong Gao, Wenjie Li, Lingyi Hong, Mingxi Chen, Kaixun Jiang, Jiyuan Fu, Wenqiang Zhang,
- Abstract要約: エージェント型マルチモーダル大規模言語モデル(MLLM)であるRSAgentを提案する。
RSAgentはセグメンテーション・ツールボックスをクエリし、視覚的フィードバックを観察し、歴史的観測を用いて空間仮説を改訂し、ターゲットを再ローカライズし、反復的にマスクを洗練させる。
RSAgentはReasonSegテストで66.5% gIoUのゼロショット性能を達成し、Seg-Zero-7Bを9%改善し、RefCOCOgで81.5% cIoUに達した。
- 参考スコア(独自算出の注目度): 52.752467948588816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided object segmentation requires both cross-modal reasoning and pixel grounding abilities. Most recent methods treat text-guided segmentation as one-shot grounding, where the model predicts pixel prompts in a single forward pass to drive an external segmentor, which limits verification, refocusing and refinement when initial localization is wrong. To address this limitation, we propose RSAgent, an agentic Multimodal Large Language Model (MLLM) which interleaves reasoning and action for segmentation via multi-turn tool invocations. RSAgent queries a segmentation toolbox, observes visual feedback, and revises its spatial hypothesis using historical observations to re-localize targets and iteratively refine masks. We further build a data pipeline to synthesize multi-turn reasoning segmentation trajectories, and train RSAgent with a two-stage framework: cold-start supervised fine-tuning followed by agentic reinforcement learning with fine-grained, task-specific rewards. Extensive experiments show that RSAgent achieves a zero-shot performance of 66.5% gIoU on ReasonSeg test, improving over Seg-Zero-7B by 9%, and reaches 81.5% cIoU on RefCOCOg, demonstrating state-of-the-art performance on both in-domain and out-of-domain benchmarks.
- Abstract(参考訳): テキスト誘導オブジェクトセグメンテーションは、クロスモーダル推論とピクセルグラウンド機能の両方を必要とする。
最近の手法では、テキスト誘導セグメンテーションをワンショットグラウンド化として扱い、モデルが1つのフォワードパスでピクセルプロンプトを予測して外部セグメンテーションを駆動する。
この制限に対処するために、マルチターンツール呼び出しによるセグメンテーションのための推論とアクションをインターリーブするエージェント型マルチモーダル大言語モデル(MLLM)であるRSAgentを提案する。
RSAgentはセグメンテーション・ツールボックスをクエリし、視覚的フィードバックを観察し、歴史的観測を用いて空間仮説を改訂し、ターゲットを再ローカライズし、反復的にマスクを洗練させる。
さらに,マルチターン推論のセグメンテーショントラジェクトリを合成するデータパイプラインを構築し,2段階のフレームワークでRSAgentを訓練する。
大規模な実験の結果、RSAgentはReasonSegテストで66.5% gIoUのゼロショット性能を達成し、Seg-Zero-7Bよりも9%向上し、RefCOCOgで81.5% cIoUに達した。
関連論文リスト
- Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation [61.37076111486196]
Ref-AVSは、対象のオブジェクトを所定の参照表現に基づいて可聴ビデオに分割することを目的としている。
本稿では,タスクをThink-Ground-Segmentプロセスに分解するTGS-Agentを提案する。
Ref-Thinkerはマルチモーダル言語モデルであり、テキスト、視覚、聴覚の手がかりを推論することができる。
論文 参考訳(メタデータ) (2025-08-06T13:05:09Z) - AgMTR: Agent Mining Transformer for Few-shot Segmentation in Remote Sensing [12.91626624625134]
Few-shot (FSS) は、関心のあるオブジェクトを少数のラベル付きサンプル(つまりサポートイメージ)でクエリイメージに分割することを目的としている。
以前のスキームでは、サポートクエリのピクセルペア間の類似性を利用して、ピクセルレベルのセマンティックな相関を構築していた。
極端にクラス内変異や乱雑な背景を持つリモートセンシングシナリオでは、そのようなピクセルレベルの相関が大きなミスマッチを引き起こす可能性がある。
本稿では,エージェントレベルの意味的相関を構築するために,一組の局所認識エージェントを適応的にマイニングする新しいエージェントマイニングトランス (AgMTR) を提案する。
論文 参考訳(メタデータ) (2024-09-26T01:12:01Z) - You Only Look at Once for Real-time and Generic Multi-Task [20.61477620156465]
A-YOLOMは適応的でリアルタイムで軽量なマルチタスクモデルである。
我々は,統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。
BDD100kデータセットで競合的な結果が得られます。
論文 参考訳(メタデータ) (2023-10-02T21:09:43Z) - SRFormer: Text Detection Transformer with Incorporated Segmentation and
Regression [6.74412860849373]
本稿では,アマルガメーションと回帰を併用した統合DTRモデルSRFormerを提案する。
実験分析により,初期デコーダ層で良好なセグメンテーション予測が得られることが示された。
提案手法の強靭性,優れたトレーニングとデータ効率,および最先端の性能について検討した。
論文 参考訳(メタデータ) (2023-08-21T07:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。