論文の概要: Referring Video Object Segmentation via Language-aligned Track Selection
- arxiv url: http://arxiv.org/abs/2412.01136v1
- Date: Mon, 02 Dec 2024 05:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:26.343905
- Title: Referring Video Object Segmentation via Language-aligned Track Selection
- Title(参考訳): 言語対応トラック選択によるビデオオブジェクトのセグメンテーションの参照
- Authors: Seongchan Kim, Woojeong Jin, Sangbeom Lim, Heeji Yoon, Hyunwook Choi, Seungryong Kim,
- Abstract要約: Referring Video Object (RVOS)は、自然言語表現に基づいて、ビデオ全体を通してオブジェクトをセグメント化しようとする。
不整合マスクトラックは、視覚言語アライメントを妨害し、最適以下のパフォーマンスをもたらす。
我々は、RVOSを2つのサブプロブレム、トラック生成とトラック選択に再構成する新しいフレームワークであるSelection by Object Language Alignment (SOLA)を提案する。
- 参考スコア(独自算出の注目度): 30.226373787454833
- License:
- Abstract: Referring Video Object Segmentation (RVOS) seeks to segment objects throughout a video based on natural language expressions. While existing methods have made strides in vision-language alignment, they often overlook the importance of robust video object tracking, where inconsistent mask tracks can disrupt vision-language alignment, leading to suboptimal performance. In this work, we present Selection by Object Language Alignment (SOLA), a novel framework that reformulates RVOS into two sub-problems, track generation and track selection. In track generation, we leverage a vision foundation model, Segment Anything Model 2 (SAM2), which generates consistent mask tracks across frames, producing reliable candidates for both foreground and background objects. For track selection, we propose a light yet effective selection module that aligns visual and textual features while modeling object appearance and motion within video sequences. This design enables precise motion modeling and alignment of the vision language. Our approach achieves state-of-the-art performance on the challenging MeViS dataset and demonstrates superior results in zero-shot settings on the Ref-Youtube-VOS and Ref-DAVIS datasets. Furthermore, SOLA exhibits strong generalization and robustness in corrupted settings, such as those with added Gaussian noise or motion blur. Our project page is available at https://cvlab-kaist.github.io/SOLA
- Abstract(参考訳): Referring Video Object Segmentation (RVOS)は、自然言語表現に基づいて、ビデオ全体を通してオブジェクトをセグメンテーションする。
既存の手法は、視覚言語アライメントの進歩を図っているが、しばしば、無矛盾なマスクトラックが視覚言語アライメントを妨害し、準最適パフォーマンスをもたらすような、堅牢なビデオオブジェクトトラッキングの重要性を見落としている。
本稿では、RVOSを2つのサブプロブレム、トラック生成とトラック選択に再構成する新しいフレームワークであるSelection by Object Language Alignment(SOLA)を提案する。
トラック生成では、フレーム間の一貫したマスクトラックを生成し、前景と背景の両方のオブジェクトに対して信頼性の高い候補を生成する、視覚基盤モデル、SAM2(Seegment Anything Model 2)を利用する。
トラック選択のために,映像系列内のオブジェクトの外観や動きをモデル化しながら,視覚的特徴とテキスト的特徴を整列する軽量で効果的な選択モジュールを提案する。
この設計により、視覚言語の正確な動きモデリングとアライメントが可能になる。
提案手法は,挑戦的なMeViSデータセットの最先端性能を実現し,Ref-Youtube-VOSとRef-DAVISデータセットのゼロショット設定における優れた結果を示す。
さらに、SOLAはガウスノイズや動きのぼやけなどの劣化した環境において、強い一般化と堅牢性を示す。
私たちのプロジェクトページはhttps://cvlab-kaist.github.io/SOLAで公開されています。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Exploring the Design Space of Visual Context Representation in Video MLLMs [102.11582556690388]
ビデオマルチモーダル大言語モデル(MLLM)は、様々な下流タスクでビデオセマンティクスを理解する際、顕著な能力を示した。
ビジュアルコンテキスト表現は、ビデオからフレームを選択し、フレームからトークンを更に選択するスキームを指す。
本稿では,視覚的文脈表現のための設計空間について検討し,より効率的な表現方式を見出すことにより,映像MLLMの性能向上を目指す。
論文 参考訳(メタデータ) (2024-10-17T15:59:52Z) - Unifying Visual and Vision-Language Tracking via Contrastive Learning [34.49865598433915]
単一のオブジェクト追跡は、異なるモーダル参照に従って、ビデオシーケンス内の対象オブジェクトを特定することを目的としている。
異なるモダリティ間のギャップのため、既存のトラッカーのほとんどは、これらの参照設定の単一または部分のために設計されている。
3つの参照設定を同時に処理できるUVLTrackという統合トラッカーを提案する。
論文 参考訳(メタデータ) (2024-01-20T13:20:54Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Tracking Anything in High Quality [63.63653185865726]
HQTrackは高品質なビデオ追跡のためのフレームワークだ。
ビデオマルチオブジェクトセグメンタ(VMOS)とマスクリファインダ(MR)で構成されている。
論文 参考訳(メタデータ) (2023-07-26T06:19:46Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Siamese Tracking with Lingual Object Constraints [28.04334832366449]
本稿では、追加の言語制約を受ける視覚オブジェクトの追跡について検討する。
Liなどとは違って、トラッキングに新たな言語制約を課し、トラッキングの新しいアプリケーションを可能にします。
本手法は,制約の妥当性に基づいて,動画の選択的圧縮を可能にする。
論文 参考訳(メタデータ) (2020-11-23T20:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。