論文の概要: Weakly-Supervised Referring Video Object Segmentation through Text Supervision
- arxiv url: http://arxiv.org/abs/2604.17797v2
- Date: Tue, 21 Apr 2026 05:39:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.931604
- Title: Weakly-Supervised Referring Video Object Segmentation through Text Supervision
- Title(参考訳): テキスト・スーパービジョンによる映像オブジェクトの参照セグメンテーション
- Authors: Miaojing Shi, Jun Huang, Zijie Yue, Hanli Wang,
- Abstract要約: ビデオオブジェクトセグメンテーション(RVOS)の参照は、テキスト表現によって参照されるビデオのターゲットインスタンスをセグメントすることを目的としている。
本稿では,テキスト表現のみを用いてモデルをトレーニングするための,弱教師付きRVOS法,すなわちWSRVOSを提案する。
A2D Sentences、J-HMDB Sentences、Ref-YouTube-VOS、Ref-DAVIS17を含む4つの公開RVOSデータセットの実験は、我々の方法の優位性を実証している。
- 参考スコア(独自算出の注目度): 35.7765195118224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring video object segmentation (RVOS) aims to segment the target instance in a video, referred by a text expression. Conventional approaches are mostly supervised learning, requiring expensive pixel-level mask annotations. To tackle it, weakly-supervised RVOS has recently been proposed to replace mask annotations with bounding boxes or points, which are however still costly and labor-intensive. In this paper, we design a novel weakly-supervised RVOS method, namely WSRVOS, to train the model with only text expressions. Given an input video and the referring expression, we first design a contrastive referring expression augmentation scheme that leverages the captioning capabilities of a multimodal large language model to generate both positive and negative expressions. We extract visual and linguistic features from the input video and generated expressions, then perform bi-directional vision-language feature selection and interaction to enable fine-grained multimodal alignment. Next, we propose an instance-aware expression classification scheme to optimize the model in distinguishing positive from negative expressions. Also, we introduce a positive-prediction fusion strategy to generate high-quality pseudo-masks, which serve as additional supervision to the model. Last, we design a temporal segment ranking constraint such that the overlaps between mask predictions of temporally neighboring frames are required to conform to specific orders. Extensive experiments on four publicly available RVOS datasets, including A2D Sentences, J-HMDB Sentences, Ref-YouTube-VOS, and Ref-DAVIS17, demonstrate the superiority of our method. Code is available at https://github.com/viscom-tongji/WSRVOS.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)の参照は、テキスト表現によって参照されるビデオ内のターゲットインスタンスをセグメントすることを目的としている。
従来のアプローチは主に教師付き学習であり、高価なピクセルレベルのマスクアノテーションを必要とする。
この問題に対処するため、RVOSは近年、マスクアノテーションをバウンディングボックスやポイントに置き換えることが提案されている。
本稿では,テキスト表現のみを用いてモデルをトレーニングするための,弱い教師付きRVOS,すなわちWSRVOSを設計する。
入力ビデオと参照表現が与えられた場合、まず、マルチモーダルな大言語モデルのキャプション機能を活用して、正と負の両方の表現を生成するコントラスト参照表現拡張スキームを設計する。
入力ビデオから視覚的特徴と言語的特徴を抽出し、生成した表現を生成し、双方向の視覚言語特徴の選択と相互作用を行い、微細なマルチモーダルアライメントを実現する。
次に、正の表現と負の表現を区別するモデル最適化のための、インスタンス認識型表現分類手法を提案する。
また、高品質な擬似マスクを生成するための正の予測融合戦略を導入し、モデルにさらなる監督を行う。
最後に、隣接フレームのマスク予測の重なりが特定の順序に適合するように、時間セグメントランキングの制約を設計する。
A2D Sentences、J-HMDB Sentences、Ref-YouTube-VOS、Ref-DAVIS17を含む4つの公開RVOSデータセットに対する大規模な実験は、我々の方法の優位性を実証している。
コードはhttps://github.com/viscom-tongji/WSRVOSで入手できる。
関連論文リスト
- Deforming Videos to Masks: Flow Matching for Referring Video Segmentation [46.416906762916305]
FlowRVSは、RVOSを条件付き連続フロー問題として再認識する新しいフレームワークである。
我々は,映像の全体像からターゲットマスクへの直接的,言語誘導的な変形を学習することにより,タスクを再構築する。
我々の一段階の生成的アプローチは、主要なRVOSベンチマーク全体にわたって、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-10-07T17:14:10Z) - Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。
これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。
SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文 参考訳(メタデータ) (2025-06-28T13:30:36Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - LoSh: Long-Short Text Joint Prediction Network for Referring Video Object Segmentation [18.832338318596648]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のテキスト表現によって参照されるターゲットインスタンスをビデオクリップにセグメントすることを目的としている。
テキスト表現は通常、インスタンスの外観、動作、および他者との関係に関する洗練された記述を含む。
本稿では,元来の長文表現から主語中心の短文表現を取り出すことにより,この問題に対処する。
論文 参考訳(メタデータ) (2023-06-14T20:40:28Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。