論文の概要: Unleashing Hierarchical Reasoning: An LLM-Driven Framework for Training-Free Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2509.05751v1
- Date: Sat, 06 Sep 2025 15:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.690084
- Title: Unleashing Hierarchical Reasoning: An LLM-Driven Framework for Training-Free Referring Video Object Segmentation
- Title(参考訳): 階層的推論の解放 - ビデオオブジェクトセグメンテーションのトレーニング不要なLLM駆動フレームワーク
- Authors: Bingrui Zhao, Lin Yuanbo Wu, Xiangtian Fan, Deyin Liu, Lu Zhang, Ruyi He, Jialie Shen, Ximing Li,
- Abstract要約: Referring Video Object (RVOS) は、言語記述に基づいて、ビデオ全体を通して関心のあるオブジェクトをセグメントすることを目的としている。
bftextPARSE-VOSは、Large Language Models (LLMs)を利用したトレーニング不要のフレームワークである。
bftextPARSE-VOSは、Ref-YouTube-VOS、Ref-DAVIS17、MeViSの3つの主要なベンチマークで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 17.238084264485988
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Referring Video Object Segmentation (RVOS) aims to segment an object of interest throughout a video based on a language description. The prominent challenge lies in aligning static text with dynamic visual content, particularly when objects exhibiting similar appearances with inconsistent motion and poses. However, current methods often rely on a holistic visual-language fusion that struggles with complex, compositional descriptions. In this paper, we propose \textbf{PARSE-VOS}, a novel, training-free framework powered by Large Language Models (LLMs), for a hierarchical, coarse-to-fine reasoning across text and video domains. Our approach begins by parsing the natural language query into structured semantic commands. Next, we introduce a spatio-temporal grounding module that generates all candidate trajectories for all potential target objects, guided by the parsed semantics. Finally, a hierarchical identification module select the correct target through a two-stage reasoning process: it first performs coarse-grained motion reasoning with an LLM to narrow down candidates; if ambiguity remains, a fine-grained pose verification stage is conditionally triggered to disambiguate. The final output is an accurate segmentation mask for the target object. \textbf{PARSE-VOS} achieved state-of-the-art performance on three major benchmarks: Ref-YouTube-VOS, Ref-DAVIS17, and MeViS.
- Abstract(参考訳): Referring Video Object Segmentation (RVOS)は、言語記述に基づいて、ビデオ全体を通して関心のあるオブジェクトをセグメントすることを目的としている。
注目すべき課題は、静的テキストを動的視覚的コンテンツと整列させることである。
しかし、現在の手法は複雑で構成的な記述に苦しむ全体論的視覚言語融合に依存していることが多い。
本稿では,Large Language Models (LLM) を利用した新しい学習自由フレームワークである \textbf{PARSE-VOS} を提案する。
私たちのアプローチは、自然言語クエリを構造化セマンティックコマンドに解析することから始まります。
次に、パースされたセマンティクスによって導かれる全ての潜在的対象対象物に対する全ての候補軌道を生成する時空間接地モジュールを提案する。
最後に、階層的識別モジュールは、2段階の推論プロセスにより正しいターゲットを選択する:まずLLMと粗い粒度の運動推論を行い、候補を絞り込む;あいまいさが残ると、きめ細かいポーズ検証ステージが条件的に不明瞭にトリガーされる。
最後の出力は、ターゲットオブジェクトの正確なセグメンテーションマスクである。
\textbf{PARSE-VOS}は、Ref-YouTube-VOS、Ref-DAVIS17、MeViSの3つの主要なベンチマークで最先端のパフォーマンスを達成した。
関連論文リスト
- SAMDWICH: Moment-aware Video-text Alignment for Referring Video Object Segmentation [16.11630169710364]
Referring Video Object (RVOS)は、自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。
現行の手法は、訓練中、フレームサンプリングとすべての可視物体の監視が区別できないため、意味的ミスアライメントに悩まされることが多い。
我々は、SAMDWICHというモーメントを意識したRVOSフレームワークと、新しい注釈付きデータセットMeViS-Mを、挑戦的なMeViSベンチマークに基づいて導入する。
論文 参考訳(メタデータ) (2025-08-16T07:34:43Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Boosting Weakly-Supervised Temporal Action Localization with Text
Information [94.48602948837664]
本稿では,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案する。
また,VLC (Video-text Language Completion) という生成目的も導入した。
また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
論文 参考訳(メタデータ) (2023-05-01T00:07:09Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - ClawCraneNet: Leveraging Object-level Relation for Text-based Video
Segmentation [47.7867284770227]
テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-03-19T09:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。