論文の概要: R^2VOS: Robust Referring Video Object Segmentation via Relational
Multimodal Cycle Consistency
- arxiv url: http://arxiv.org/abs/2207.01203v1
- Date: Mon, 4 Jul 2022 05:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:19:22.269189
- Title: R^2VOS: Robust Referring Video Object Segmentation via Relational
Multimodal Cycle Consistency
- Title(参考訳): R^2VOS:リレーショナルマルチモーダルサイクル一貫性によるビデオオブジェクトセグメンテーションのロバスト参照
- Authors: Xiang Li, Jinglu Wang, Xiaohao Xu, Xiao Li, Yan Lu, Bhiksha Raj
- Abstract要約: ビデオオブジェクトセグメンテーション(R-VOS)は、オブジェクトに言語表現を与えられたビデオにオブジェクトマスクをセグメントすることを目的としている。
式によって描かれたオブジェクトは、ビデオの中に存在しなければならない。
これは、表現を偽ビデオにクエリできる現実世界のアプリケーションでは、しばしば違反される。
本研究では,R-VOSのロバスト性を改善するためには意味論的コンセンサスの研究が必要であることを強調する。
- 参考スコア(独自算出の注目度): 37.082306849729534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (R-VOS) aims to segment the object masks
in a video given a referring linguistic expression to the object. It is a
recently introduced task attracting growing research attention. However, all
existing works make a strong assumption: The object depicted by the expression
must exist in the video, namely, the expression and video must have an
object-level semantic consensus. This is often violated in real-world
applications where an expression can be queried to false videos, and existing
methods always fail in such false queries due to abusing the assumption. In
this work, we emphasize that studying semantic consensus is necessary to
improve the robustness of R-VOS. Accordingly, we pose an extended task from
R-VOS without the semantic consensus assumption, named Robust R-VOS
($\mathrm{R}^2$-VOS). The $\mathrm{R}^2$-VOS task is essentially related to the
joint modeling of the primary R-VOS task and its dual problem (text
reconstruction). We embrace the observation that the embedding spaces have
relational consistency through the cycle of text-video-text transformation,
which connects the primary and dual problems. We leverage the cycle consistency
to discriminate the semantic consensus, thus advancing the primary task.
Parallel optimization of the primary and dual problems are enabled by
introducing an early grounding medium. A new evaluation dataset,
$\mathrm{R}^2$-Youtube-VOS, is collected to measure the robustness of R-VOS
models against unpaired videos and expressions. Extensive experiments
demonstrate that our method not only identifies negative pairs of unrelated
expressions and videos, but also improves the segmentation accuracy for
positive pairs with a superior disambiguating ability. Our model achieves the
state-of-the-art performance on Ref-DAVIS17, Ref-Youtube-VOS, and the novel
$\mathrm{R}^2$-Youtube-VOS dataset.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(R-VOS)は、オブジェクトへの参照言語表現が与えられたビデオにオブジェクトマスクをセグメントすることを目的としている。
最近紹介された、研究の注目を集めるタスクである。
式によって描かれたオブジェクトは、ビデオの中に存在しなければならない、すなわち、式とビデオは、オブジェクトレベルのセマンティックコンセンサスを持つ必要がある。
これは、式を偽ビデオにクエリできる現実世界のアプリケーションではしばしば違反し、既存のメソッドは仮定を悪用するため、常に偽のクエリで失敗する。
本研究では,R-VOSのロバスト性を改善するためには意味論的コンセンサスの研究が必要であることを強調する。
したがって、意味的コンセンサスを仮定せずにR-VOSから拡張されたタスクをRobost R-VOS(\mathrm{R}^2$-VOS)と呼ぶ。
$\mathrm{R}^2$-VOS タスクは、本質的には一次 R-VOS タスクの合同モデリングとその双対問題(テキスト再構成)に関連している。
我々は,埋め込み空間がテキスト-ビデオ-テキスト変換のサイクルを通じて関係性を持つという観察を受け入れた。
サイクル一貫性を利用して意味的コンセンサスを識別し、主要なタスクを進める。
初期接地媒体を導入することにより,主問題と双対問題の並列最適化が可能となる。
新しい評価データセットである$\mathrm{R}^2$-Youtube-VOSは、未ペアビデオや表現に対するR-VOSモデルの堅牢性を測定するために収集される。
本手法は,非関係な表現とビデオの負のペアを同定するだけでなく,不明瞭な能力を有する正のペアのセグメンテーション精度も向上することを示す。
我々のモデルは,Ref-DAVIS17,Ref-Youtube-VOS,および新しい$\mathrm{R}^2$-Youtube-VOSデータセットの最先端性能を実現する。
関連論文リスト
- RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - Towards Robust Referring Image Segmentation [80.53860642199412]
Referring Image (RIS)は、テキスト記述に基づいてオブジェクトマスクを出力する基本的な視覚言語タスクである。
我々はロバスト参照画像(R-RIS)というRISの新しい定式化を提案する。
既存のRISデータセットを負の文で拡張することで、3つのR-RISデータセットを作成します。
本稿では,トークンベースのビジョンと言語融合モジュールを備えた,RefSegformerと呼ばれるトランスフォーマーベースのモデルを提案する。
論文 参考訳(メタデータ) (2022-09-20T08:48:26Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Hybrid-S2S: Video Object Segmentation with Recurrent Networks and
Correspondence Matching [3.9053553775979086]
ワンショットビデオオブジェクト(ワンショットビデオオブジェクト、英: One-shot Video Object、VOS)は、ビデオシーケンス内で関心のあるオブジェクトを追跡するタスクである。
本稿では,RNNをベースとしたアーキテクチャについて検討し,HS2Sというハイブリッドシーケンス・ツー・シーケンスアーキテクチャを提案する。
実験の結果,RNNを対応マッチングで拡張することはドリフト問題を低減するのに極めて有効な解であることがわかった。
論文 参考訳(メタデータ) (2020-10-10T19:00:43Z) - RefVOS: A Closer Look at Referring Expressions for Video Object
Segmentation [8.80595950124721]
我々は,新しいニューラルネットワークを用いて,言語誘導型VOSにおける言語誘導型画像セグメンテーションの結果と技術結果の状態を解析する。
本研究は,タスクの大きな課題が動作や静的動作の理解に関連していることを示唆する。
論文 参考訳(メタデータ) (2020-10-01T09:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。