論文の概要: AgentRVOS: Reasoning over Object Tracks for Zero-Shot Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2603.23489v1
- Date: Tue, 24 Mar 2026 17:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.628501
- Title: AgentRVOS: Reasoning over Object Tracks for Zero-Shot Referring Video Object Segmentation
- Title(参考訳): AgentRVOS: ゼロショット参照ビデオオブジェクトセグメンテーションのためのオブジェクトトラック上の推論
- Authors: Woojeong Jin, Jaeho Lee, Heeseong Shin, Seungho Jang, Junhwan Heo, Seungryong Kim,
- Abstract要約: Video Object(RVOS)は、自然言語クエリが与えられたビデオ全体を通じて対象オブジェクトをセグメントすることを目的としている。
そこで本研究では,SAM3とMLLMの相補的な長所をベースとした,トレーニング不要なエージェントパイプラインであるAgentOSを提案する。
- 参考スコア(独自算出の注目度): 37.67402969516464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Video Object Segmentation (RVOS) aims to segment a target object throughout a video given a natural language query. Training-free methods for this task follow a common pipeline: a MLLM selects keyframes, grounds the referred object within those frames, and a video segmentation model propagates the results. While intuitive, this design asks the MLLM to make temporal decisions before any object-level evidence is available, limiting both reasoning quality and spatio-temporal coverage. To overcome this, we propose AgentRVOS, a training-free agentic pipeline built on the complementary strengths of SAM3 and a MLLM. Given a concept derived from the query, SAM3 provides reliable perception over the full spatio-temporal extent through generated mask tracks. The MLLM then identifies the target through query-grounded reasoning over this object-level evidence, iteratively pruning guided by SAM3's temporal existence information. Extensive experiments show that AgentRVOS achieves state-of-the-art performance among training-free methods across multiple benchmarks, with consistent results across diverse MLLM backbones. Our project page is available at: https://cvlab-kaist.github.io/AgentRVOS/.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)の参照は、自然言語クエリが与えられたビデオ全体を通じて対象オブジェクトをセグメンテーションすることを目的としている。
MLLMは、キーフレームを選択し、参照されたオブジェクトをそれらのフレーム内にグラウンドし、ビデオセグメンテーションモデルが結果を伝達する。
直感的ではあるが、この設計はMLLMに対して、いかなるオブジェクトレベルの証拠が利用可能になる前に時間的決定をするよう求め、推論品質と時空間カバレッジの両方を制限する。
これを解決するために,SAM3とMLLMの相補的強度に基づいて構築された,トレーニング不要なエージェントパイプラインであるAgentRVOSを提案する。
SAM3は、クエリから導かれた概念を前提として、生成されたマスクトラックを通じて、完全な時空間範囲に対する信頼性の高い認識を提供する。
MLLMは、SAM3の時間的存在情報によって導かれる反復的なプルーニングである、このオブジェクトレベルの証拠に関するクエリーグラウンドの推論を通じてターゲットを識別する。
大規模な実験により、AgentRVOSは、複数のベンチマークでトレーニング不要なメソッド間で、さまざまなMLLMバックボーン間で一貫した結果を得ることができた。
私たちのプロジェクトページは、https://cvlab-kaist.github.io/AgentRVOS/.com/で利用可能です。
関連論文リスト
- Learning Trajectory-Aware Multimodal Large Language Models for Video Reasoning Segmentation [55.743701532984126]
我々はTrajSegを提案する。TrajSegはマルチモーダル大規模言語モデル上に構築されたシンプルで統一されたフレームワークである。
本研究では,MLLMが接頭辞(テキスト・トゥ・トラジェクティブ)と接頭辞(テキスト・トゥ・テキスト)の指示を受理する双方向テキスト・トラジェクティブアライメントを提案する。
このようにして、MLLMは、ビデオの対応性の向上と、より知覚的なオブジェクトの軌跡の恩恵を受けることができる。
論文 参考訳(メタデータ) (2026-03-23T02:25:51Z) - GoalVLM: VLM-driven Object Goal Navigation for Multi-Agent System [0.0]
ゼロショットでオープンなオブジェクトナビゲーションのための協調型マルチエージェントフレームワークであるGoalVLMを提案する。
GoalVLMは、VLM(Vision-Language Model)を直接決定ループに統合し、SAM3はテキストプロンプト検出とセグメンテーション、SpaceOMは空間推論を行う。
GOAT-Bench val_unseenにおけるGoalVLMの評価を行った。
論文 参考訳(メタデータ) (2026-03-18T18:59:33Z) - Temporal Prompting Matters: Rethinking Referring Video Object Segmentation [64.82333675385802]
Referring Video Object (RVOS) は、クエリ文によって参照されるオブジェクトをビデオにセグメントすることを目的としている。
既存のほとんどの方法は、密集したマスクアノテーションによるエンドツーエンドのトレーニングを必要とする。
本稿では,参照要因とビデオ要因に対処するテンポラル・プロンプト生成・選択(テネ)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-08T17:59:57Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - ViQAgent: Zero-Shot Video Question Answering via Agent with Open-Vocabulary Grounding Validation [49.1574468325115]
本研究は、ゼロショットビデオ質問応答(VideoQA)のためのLCMブラインドエージェントを提案する。
Chain-of-Thoughtフレームワークと、YOLO-Worldと組み合わせて、オブジェクトのトラッキングとアライメントを強化する。
このアプローチは、NExT-QA、iVQA、ActivityNet-QAベンチマークのパフォーマンスを向上した、ビデオQAおよびビデオ理解における新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2025-05-21T18:32:43Z) - EagleVision: Object-level Attribute Multimodal LLM for Remote Sensing [3.3072144045024396]
EagleVisionは、オブジェクトの検出と属性の理解に優れるリモートセンシング用に設計されたMLLMである。
EVAttrs-95Kは、命令チューニングのためのRSにおいて、最初の大規模オブジェクト属性理解データセットである。
EagleVisionは、細粒度オブジェクト検出とオブジェクト属性理解タスクの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-30T06:13:13Z) - Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。
我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。
さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文 参考訳(メタデータ) (2024-12-02T13:17:41Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。