論文の概要: AgentRVOS for MeViS-Text Track of 5th PVUW Challenge: 3rd Method
- arxiv url: http://arxiv.org/abs/2604.22836v1
- Date: Mon, 20 Apr 2026 14:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.973488
- Title: AgentRVOS for MeViS-Text Track of 5th PVUW Challenge: 3rd Method
- Title(参考訳): 第5回PVUWチャレンジのMeViS-Textトラック用エージェントRVOS:第3報
- Authors: Deshui Miao, Chao Yang, Chao Tian, Guoqing Zhu, Kai Yang, Zhifan Mo, Xin Li,
- Abstract要約: Ref-VOSパイプラインはSa2VAを中心に、明示的なエージェントロールで編成された。
鍵となる考え方は、Sa2VAが最初の密接なセマンティック仮説を提供するべきだということである。
結果がRef-VOSシステムであり、Sa2VAは密接な基底理解を担っている。
- 参考スコア(独自算出の注目度): 12.580316757816282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report describes a Ref-VOS pipeline centered on Sa2VA and organized with explicit agent roles. The key idea is that Sa2VA should provide the first dense semantic hypothesis, while an agent loop decides whether that hypothesis should be accepted, revised, or refined. The pipeline starts with a target-presence judgment stage. If the referred object does not exist in the video, the system directly outputs zero masks. Otherwise, Sa2VA receives the video and referring prompt and produces a coarse mask trajectory over the full video. This trajectory is treated as a semantic prior rather than a final answer. A planner agent decomposes the query, temporal partition agents identify informative blocks, scout agents search for anchor frames, and refinement agents convert reliable Sa2VA masks into boxes and points for SAM3 propagation. A critic scores candidate trajectories, a reflection controller repairs weak hypotheses, and a collaboration controller reconciles multiple agent branches. The result is a Ref-VOS system in which Sa2VA is responsible for dense grounded understanding, while the agent layer handles presence verification, temporal search, confidence-aware revision, and final mask refinement.
- Abstract(参考訳): 本報告では,Sa2VAを中心に,明示的なエージェントロールを備えたRef-VOSパイプラインについて述べる。
鍵となる考え方は、Sa2VAが最初の密接なセマンティック仮説を提供するべきであり、一方でエージェントループは、その仮説が受け入れられるか、修正されるべきかを決定する。
パイプラインは、ターゲットプレゼンス判定段階から始まる。
ビデオに参照対象が存在しない場合、システムはゼロマスクを直接出力する。
そうでなければ、Sa2VAはビデオを受け取り、プロンプトを参照し、フルビデオ上で粗いマスク軌道を生成する。
この軌道は最終回答よりもむしろ意味論として扱われる。
プランナーエージェントはクエリを分解し、時間分割エージェントは情報ブロックを識別し、スカウトエージェントはアンカーフレームを検索し、精製エージェントは信頼性の高いSa2VAマスクをSAM3伝搬のためのボックスとポイントに変換する。
批評家は候補軌跡をスコアし、リフレクションコントローラは弱い仮説を修復し、コラボレーションコントローラは複数のエージェントブランチを調整する。
その結果, エージェント層が存在確認, 時間探索, 信頼を意識した修正, 最終的なマスク改質処理を行うのに対して, Sa2VAは密接な基底的理解に責任を負うRef-VOSシステムとなった。
関連論文リスト
- From Language to Logic: Bridging LLMs & Formal Representations for RTL Assertion Generation [0.0]
SystemVerilog Assertions (SVA) はデジタルハードウェアの正式な検証に不可欠である。
近年,大規模言語モデル(LLM)を用いてSVA生成を自動化する手法が研究されている。
本稿では,自然言語仕様からSVAを生成するツール拡張ReActエージェントProofLoopを提案する。
論文 参考訳(メタデータ) (2026-04-25T01:46:33Z) - If you're waiting for a sign... that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems [23.899383110296622]
環境信号は、エージェントの挙動に影響を与えるべきバンド内信号である。
同様の信号は、誤解を招く視覚注射として動作させることもできる。
現在のLVLMベースのエージェントは、このトレードオフを確実にバランスすることができない。
意思決定から認識を分離する多エージェント防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-21T11:27:30Z) - AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems [52.83669998269706]
テキストのみの設定で研究されてきたが、まだマルチモーダルに探索されていない。
現在のベンチマークでは、未解決性を無視するか、現実的な障害モードを見逃す粗末なメソッドに依存している。
MM-AQAは、2つの軸に沿った変換によって解答不能なインスタンスを解答可能なインスタンスから構築するベンチマークである。
論文 参考訳(メタデータ) (2026-04-16T09:23:22Z) - The 1st Winner for 5th PVUW MeViS-Text Challenge: Strong MLLMs Meet SAM3 for Referring Video Object Segmentation [65.24213788883016]
本報告では,第5回PVUW MeViS-Text Challengeの優勝ソリューションについて述べる。
私たちは、強力なマルチモーダルな大規模言語モデルとSAM3を組み合わせた、完全にトレーニング不要なパイプラインを構築しています。
我々の手法はPVUW 2026 MeViS-Textテストセットで第1位であり、最終スコアは0.909064、J&Fスコアは0.7897026である。
論文 参考訳(メタデータ) (2026-04-01T02:42:30Z) - AgentRVOS: Reasoning over Object Tracks for Zero-Shot Referring Video Object Segmentation [37.67402969516464]
Video Object(RVOS)は、自然言語クエリが与えられたビデオ全体を通じて対象オブジェクトをセグメントすることを目的としている。
そこで本研究では,SAM3とMLLMの相補的な長所をベースとした,トレーニング不要なエージェントパイプラインであるAgentOSを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:55:17Z) - Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection [32.301679396929536]
静的な入力フィルタリングから実行対応分析へ、防御パラダイムをシフトするフレームワークであるSysNameを提案する。
SysNameは断片化された操作プリミティブを連続した行動軌跡に合成し、システムアクティビティの全体像を可能にする。
実証的な評価により、SysNameは10以上の異なる複合攻撃ベクトルを効果的に検出し、それぞれノードレベルとパスレベルのエンドツーエンド攻撃検出に対して85.3%と66.7%のF1スコアを達成した。
論文 参考訳(メタデータ) (2026-03-04T01:59:16Z) - Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation [61.37076111486196]
Ref-AVSは、対象のオブジェクトを所定の参照表現に基づいて可聴ビデオに分割することを目的としている。
本稿では,タスクをThink-Ground-Segmentプロセスに分解するTGS-Agentを提案する。
Ref-Thinkerはマルチモーダル言語モデルであり、テキスト、視覚、聴覚の手がかりを推論することができる。
論文 参考訳(メタデータ) (2025-08-06T13:05:09Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。