論文の概要: Temporal Prompting Matters: Rethinking Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2510.07319v1
- Date: Wed, 08 Oct 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.696458
- Title: Temporal Prompting Matters: Rethinking Referring Video Object Segmentation
- Title(参考訳): 時間的プロンプト - ビデオオブジェクトのセグメンテーションの再考
- Authors: Ci-Siang Lin, Min-Hung Chen, I-Jieh Liu, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang,
- Abstract要約: Referring Video Object (RVOS) は、クエリ文によって参照されるオブジェクトをビデオにセグメントすることを目的としている。
既存のほとんどの方法は、密集したマスクアノテーションによるエンドツーエンドのトレーニングを必要とする。
本稿では,参照要因とビデオ要因に対処するテンポラル・プロンプト生成・選択(テネ)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 64.82333675385802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Video Object Segmentation (RVOS) aims to segment the object referred to by the query sentence in the video. Most existing methods require end-to-end training with dense mask annotations, which could be computation-consuming and less scalable. In this work, we rethink the RVOS problem and aim to investigate the key to this task. Based on existing foundation segmentation models, we decompose the RVOS task into referring, video, and segmentation factors, and propose a Temporal Prompt Generation and Selection (Tenet) framework to address the referring and video factors while leaving the segmentation problem to foundation models. To efficiently adapt image-based foundation segmentation models to referring video object segmentation, we leverage off-the-shelf object detectors and trackers to produce temporal prompts associated with the referring sentence. While high-quality temporal prompts could be produced, they can not be easily identified from confidence scores. To tackle this issue, we propose Prompt Preference Learning to evaluate the quality of the produced temporal prompts. By taking such prompts to instruct image-based foundation segmentation models, we would be able to produce high-quality masks for the referred object, enabling efficient model adaptation to referring video object segmentation. Experiments on RVOS benchmarks demonstrate the effectiveness of the Tenet framework.
- Abstract(参考訳): Referring Video Object Segmentation (RVOS) は、クエリ文によって参照されるオブジェクトをビデオにセグメントすることを目的としている。
既存のほとんどのメソッドでは、高密度なマスクアノテーションによるエンドツーエンドのトレーニングが必要です。
本研究では,RVOS問題を再考し,この課題の鍵を解明することを目的とする。
既存の基盤セグメンテーションモデルに基づいて、RVOSタスクを参照・ビデオ・セグメンテーション要素に分解し、そのセグメンテーション問題を基礎モデルに残しながら、参照・ビデオ要因に対処するテンポラル・プロンプト生成・選択(Tenet)フレームワークを提案する。
ビデオオブジェクトのセグメンテーションを参照するための画像ベース基盤セグメンテーションモデルを効率的に適用するために,既製の物体検出器とトラッカーを用いて,参照文に関連する時間的プロンプトを生成する。
高品質な時間的プロンプトを生成できるが、信頼スコアから容易に識別することはできない。
この問題に対処するために、生成した時間的プロンプトの品質を評価するために、プロンプト選好学習を提案する。
このようなプロンプトを画像ベース基盤セグメンテーションモデルに取り入れることで、参照対象に対して高品質なマスクを作成できるようになり、ビデオオブジェクトセグメンテーションを参照するための効率的なモデル適応が可能となる。
RVOSベンチマークの実験では、Tenetフレームワークの有効性が示されている。
関連論文リスト
- CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
ViLLaは、複数のコアイノベーションを通じて、これらの課題に対処しています。
長ビデオの効率的な処理を可能にするために、Villaは(3)長ビデオを短いが意味的に密度の高いセグメントに適応的に分割し、冗長性を低下させるキーセグメントサンプリングを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。