論文の概要: Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2602.03595v1
- Date: Tue, 03 Feb 2026 14:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.520674
- Title: Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation
- Title(参考訳): Refer-Agent:ビデオオブジェクトセグメンテーションの推論とリフレクションを併用した協調型マルチエージェントシステム
- Authors: Haichao Jiang, Tianming Liang, Wei-Shi Zheng, Jian-Fang Hu,
- Abstract要約: Referring Video Object (RVOS)は、テキストクエリに基づいたビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
SFTベースのモデルとゼロショットアプローチの両方を含む最先端の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 50.22481337087162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Video Object Segmentation (RVOS) aims to segment objects in videos based on textual queries. Current methods mainly rely on large-scale supervised fine-tuning (SFT) of Multi-modal Large Language Models (MLLMs). However, this paradigm suffers from heavy data dependence and limited scalability against the rapid evolution of MLLMs. Although recent zero-shot approaches offer a flexible alternative, their performance remains significantly behind SFT-based methods, due to the straightforward workflow designs. To address these limitations, we propose \textbf{Refer-Agent}, a collaborative multi-agent system with alternating reasoning-reflection mechanisms. This system decomposes RVOS into step-by-step reasoning process. During reasoning, we introduce a Coarse-to-Fine frame selection strategy to ensure the frame diversity and textual relevance, along with a Dynamic Focus Layout that adaptively adjusts the agent's visual focus. Furthermore, we propose a Chain-of-Reflection mechanism, which employs a Questioner-Responder pair to generate a self-reflection chain, enabling the system to verify intermediate results and generates feedback for next-round reasoning refinement. Extensive experiments on five challenging benchmarks demonstrate that Refer-Agent significantly outperforms state-of-the-art methods, including both SFT-based models and zero-shot approaches. Moreover, Refer-Agent is flexible and enables fast integration of new MLLMs without any additional fine-tuning costs. Code will be released.
- Abstract(参考訳): Referring Video Object Segmentation (RVOS)は、ビデオ内のオブジェクトをテキストクエリに基づいてセグメントすることを目的としている。
現在の手法は主にMulti-modal Large Language Models (MLLM)の大規模教師付き微調整(SFT)に依存している。
しかし、このパラダイムはMLLMの急速な進化に対して、大量のデータ依存と限られたスケーラビリティに悩まされている。
最近のゼロショットアプローチはフレキシブルな代替手段を提供するが、それらの性能は単純なワークフロー設計のため、SFTベースの手法に大きく遅れている。
これらの制約に対処するため, 共用多エージェントシステムである \textbf{Refer-Agent} を提案する。
このシステムはRVOSをステップバイステップの推論プロセスに分解する。
推論中、フレームの多様性とテキスト関連性を確保するための粗いフレーム選択戦略と、エージェントの視覚的焦点を適応的に調整する動的フォーカスレイアウトを導入する。
さらに,質問応答対を用いて自己回帰連鎖を生成し,中間結果を検証し,次ラウンドの推論改善のためのフィードバックを生成する。
5つの挑戦的なベンチマークに関する大規模な実験により、Refer-Agentは、SFTベースのモデルとゼロショットアプローチの両方を含む最先端の手法を著しく上回ることを示した。
さらに、Refer-Agentは柔軟性があり、追加の微調整コストなしで新しいMLLMの迅速な統合を可能にする。
コードはリリースされる。
関連論文リスト
- Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文 参考訳(メタデータ) (2026-01-15T08:09:04Z) - VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning [49.35834435935727]
VideoZoomerは、MLLMが推論中に視覚的焦点を制御することができる新しいエージェントフレームワークである。
私たちの7Bモデルは、多種多様な複雑な推論パターンを提供し、幅広いビデオ理解と推論のベンチマークに強いパフォーマンスをもたらします。
これらの創発的な能力は、既存のオープンソースモデルを一貫して上回り、挑戦的なタスクでプロプライエタリなシステムをライバルにさえできる。
論文 参考訳(メタデータ) (2025-12-26T11:43:21Z) - REMoH: A Reflective Evolution of Multi-objective Heuristics approach via Large Language Models [39.85828629779943]
多目的最適化は、複雑な意思決定タスクにおいて基礎となる。
大規模言語モデル(LLM)の最近の進歩は、説明可能性、適応性、推論の強化を提供する。
本研究では,NSGA-II と LLM を融合した新たなフレームワークである REMoH (Reflectionive Evolution of Multi-Objective Heuristics) を提案する。
論文 参考訳(メタデータ) (2025-06-09T13:38:28Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - TAMO: Fine-Grained Root Cause Analysis via Tool-Assisted LLM Agent with Multi-Modality Observation Data in Cloud-Native Systems [42.50432360919637]
クラウドネイティブシステムにおける大規模言語モデル(LLM)による根本原因分析(RCA)は、現代のソフトウェア運用とメンテナンスにおいて重要なトピックとなっている。
既存のLLMベースのアプローチでは、マルチモード入力制約、コンテキストウィンドウ制限、動的依存グラフの3つの大きな課題に直面している。
細粒度RCA,すなわちTAMOのための多モード観測データを用いたツール支援LDMエージェントを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:50:48Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。