論文の概要: Towards Robust Referring Video Object Segmentation with Cyclic
Relational Consensus
- arxiv url: http://arxiv.org/abs/2207.01203v3
- Date: Fri, 18 Aug 2023 18:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 03:06:13.363358
- Title: Towards Robust Referring Video Object Segmentation with Cyclic
Relational Consensus
- Title(参考訳): 周期的リレーショナルコンセンサスを用いたロバスト参照ビデオオブジェクトセグメンテーション
- Authors: Xiang Li, Jinglu Wang, Xiaohao Xu, Xiao Li, Bhiksha Raj, Yan Lu
- Abstract要約: Referring Video Object (R-VOS) は、言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした課題である。
既存のほとんどのR-VOSメソッドは重要な仮定を持ち、参照されるオブジェクトはビデオに表示されなければならない。
本研究では,意味的ミスマッチを扱えるロバストなR-VOSモデルの必要性を強調した。
- 参考スコア(独自算出の注目度): 42.14174599341824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Video Object Segmentation (R-VOS) is a challenging task that aims
to segment an object in a video based on a linguistic expression. Most existing
R-VOS methods have a critical assumption: the object referred to must appear in
the video. This assumption, which we refer to as semantic consensus, is often
violated in real-world scenarios, where the expression may be queried against
false videos. In this work, we highlight the need for a robust R-VOS model that
can handle semantic mismatches. Accordingly, we propose an extended task called
Robust R-VOS, which accepts unpaired video-text inputs. We tackle this problem
by jointly modeling the primary R-VOS problem and its dual (text
reconstruction). A structural text-to-text cycle constraint is introduced to
discriminate semantic consensus between video-text pairs and impose it in
positive pairs, thereby achieving multi-modal alignment from both positive and
negative pairs. Our structural constraint effectively addresses the challenge
posed by linguistic diversity, overcoming the limitations of previous methods
that relied on the point-wise constraint. A new evaluation dataset,
R\textsuperscript{2}-Youtube-VOSis constructed to measure the model robustness.
Our model achieves state-of-the-art performance on R-VOS benchmarks,
Ref-DAVIS17 and Ref-Youtube-VOS, and also our
R\textsuperscript{2}-Youtube-VOS~dataset.
- Abstract(参考訳): Referring Video Object Segmentation (R-VOS)は、言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした課題である。
既存のほとんどのR-VOSメソッドは重要な仮定を持ち、参照されるオブジェクトはビデオに表示されなければならない。
意味的コンセンサス(semantic consensus)と呼ばれるこの仮定は、現実のシナリオにおいてしばしば破られ、その表現は偽のビデオに対して照会される可能性がある。
本研究では,意味的ミスマッチを扱えるロバストなR-VOSモデルの必要性を強調した。
そこで,ロバストR-VOSと呼ばれる拡張タスクを提案する。
本稿では,R-VOS問題とその双対(テキスト再構成)を共同でモデル化することによって,この問題に対処する。
ビデオテキストペア間のセマンティックコンセンサスを識別し、正のペアに付与する構造的テキスト-テキストサイクル制約を導入し、正のペアと負のペアの両方からマルチモーダルアライメントを実現する。
我々の構造的制約は言語多様性がもたらす課題に効果的に対処し、ポイントワイド制約に依存する従来の手法の制約を克服する。
新しい評価データセットであるR\textsuperscript{2}-Youtube-VOSisは、モデルの堅牢性を測定するために構築された。
我々のモデルは、R-VOSベンチマーク、Ref-DAVIS17、Ref-Youtube-VOS、R\textsuperscript{2}-Youtube-VOS~データセットの最先端性能を達成する。
関連論文リスト
- RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - Towards Robust Referring Image Segmentation [80.53860642199412]
Referring Image (RIS)は、テキスト記述に基づいてオブジェクトマスクを出力する基本的な視覚言語タスクである。
我々はロバスト参照画像(R-RIS)というRISの新しい定式化を提案する。
既存のRISデータセットを負の文で拡張することで、3つのR-RISデータセットを作成します。
本稿では,トークンベースのビジョンと言語融合モジュールを備えた,RefSegformerと呼ばれるトランスフォーマーベースのモデルを提案する。
論文 参考訳(メタデータ) (2022-09-20T08:48:26Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Hybrid-S2S: Video Object Segmentation with Recurrent Networks and
Correspondence Matching [3.9053553775979086]
ワンショットビデオオブジェクト(ワンショットビデオオブジェクト、英: One-shot Video Object、VOS)は、ビデオシーケンス内で関心のあるオブジェクトを追跡するタスクである。
本稿では,RNNをベースとしたアーキテクチャについて検討し,HS2Sというハイブリッドシーケンス・ツー・シーケンスアーキテクチャを提案する。
実験の結果,RNNを対応マッチングで拡張することはドリフト問題を低減するのに極めて有効な解であることがわかった。
論文 参考訳(メタデータ) (2020-10-10T19:00:43Z) - RefVOS: A Closer Look at Referring Expressions for Video Object
Segmentation [8.80595950124721]
我々は,新しいニューラルネットワークを用いて,言語誘導型VOSにおける言語誘導型画像セグメンテーションの結果と技術結果の状態を解析する。
本研究は,タスクの大きな課題が動作や静的動作の理解に関連していることを示唆する。
論文 参考訳(メタデータ) (2020-10-01T09:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。