論文の概要: Referring Video Object Segmentation with Inter-Frame Interaction and
Cross-Modal Correlation
- arxiv url: http://arxiv.org/abs/2307.00536v1
- Date: Sun, 2 Jul 2023 10:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 15:25:40.301003
- Title: Referring Video Object Segmentation with Inter-Frame Interaction and
Cross-Modal Correlation
- Title(参考訳): フレーム間相互作用とモード間相関によるビデオオブジェクトセグメンテーションの参照
- Authors: Meng Lan, Fu Rong, Lefei Zhang
- Abstract要約: RVOSは、言語表現によって記述されたビデオシーケンスでターゲットオブジェクトをセグメントすることを目的としている。
これらの問題を解決するために,IFIRVOSと呼ばれる新しいRVOSフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.253594757645182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (RVOS) aims to segment the target object
in a video sequence described by a language expression. Typical query-based
methods process the video sequence in a frame-independent manner to reduce the
high computational cost, which however affects the performance due to the lack
of inter-frame interaction for temporal coherence modeling and spatio-temporal
representation learning of the referred object. Besides, they directly adopt
the raw and high-level sentence feature as the language queries to decode the
visual features, where the weak correlation between visual and linguistic
features also increases the difficulty of decoding the target information and
limits the performance of the model. In this paper, we proposes a novel RVOS
framework, dubbed IFIRVOS, to address these issues. Specifically, we design a
plug-and-play inter-frame interaction module in the Transformer decoder to
efficiently learn the spatio-temporal features of the referred object, so as to
decode the object information in the video sequence more precisely and generate
more accurate segmentation results. Moreover, we devise the vision-language
interaction module before the multimodal Transformer to enhance the correlation
between the visual and linguistic features, thus facilitating the process of
decoding object information from visual features by language queries in
Transformer decoder and improving the segmentation performance. Extensive
experimental results on three benchmarks validate the superiority of our
IFIRVOS over state-of-the-art methods and the effectiveness of our proposed
modules.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)は、対象オブジェクトを言語表現によって記述されたビデオシーケンスにセグメントすることを目的としている。
典型的なクエリベースの手法は、フレームに依存しない方法でビデオシーケンスを処理し、高い計算コストを削減するが、時間的コヒーレンスモデリングと参照対象の時空間表現学習のためのフレーム間相互作用の欠如により、パフォーマンスに影響を及ぼす。
また、視覚的特徴と言語的特徴の弱い相関がターゲット情報をデコードすることの難しさを増加させ、モデルの性能を制限した、言語的特徴をデコードするための言語クエリとして、生および高水準の文機能を直接採用している。
本稿では,これらの問題に対処するために,ifirvos と呼ばれる新しい rvos フレームワークを提案する。
具体的には、トランスフォーマーデコーダのプラグアンドプレイフレーム間相互作用モジュールを設計し、参照オブジェクトの時空間的特徴を効率的に学習し、ビデオシーケンス内のオブジェクト情報をより正確にデコードし、より正確なセグメンテーション結果を生成する。
さらに,マルチモーダルトランスフォーマの前に視覚言語間インタラクションモジュールを考案し,視覚特徴と言語特徴の相関性を高めることにより,トランスフォーマデコーダにおける言語クエリによる視覚特徴からオブジェクト情報を復号するプロセスを容易にし,セグメンテーション性能を向上させる。
3つのベンチマークによる大規模な実験結果から,IFIRVOSの最先端手法に対する優位性と提案モジュールの有効性が検証された。
関連論文リスト
- InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Efficient Unsupervised Video Object Segmentation Network Based on Motion
Guidance [1.5736899098702974]
本稿では,モーションガイダンスに基づく映像オブジェクト分割ネットワークを提案する。
モデルは、デュアルストリームネットワーク、モーションガイダンスモジュール、マルチスケールプログレッシブフュージョンモジュールを含む。
実験により,提案手法の優れた性能が証明された。
論文 参考訳(メタデータ) (2022-11-10T06:13:23Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。
注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。
提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文 参考訳(メタデータ) (2021-01-21T20:06:12Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。