論文の概要: Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for
Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2307.00536v2
- Date: Sun, 17 Sep 2023 09:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:19:02.461112
- Title: Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for
Referring Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーション参照のための双方向相関駆動フレーム間インタラクショントランス
- Authors: Meng Lan, Fu Rong, Zuchao Li, Wei Yu, Lefei Zhang
- Abstract要約: RVOSにおけるこれらの問題に対処するために,BIFITと呼ばれる相関駆動のフレーム間相互作用変換器を提案する。
具体的には、デコーダ内の軽量なプラグアンドプレイフレーム間相互作用モジュールを設計する。
視覚的特徴と言語的特徴の相関を容易にするために、トランスフォーマーの前に視覚フェリング相互作用が実装される。
- 参考スコア(独自算出の注目度): 44.952526831843386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (RVOS) aims to segment the target object
in a video sequence described by a language expression. Typical multimodal
Transformer based RVOS approaches process video sequence in a frame-independent
manner to reduce the high computational cost, which however restricts the
performance due to the lack of inter-frame interaction for temporal coherence
modeling and spatio-temporal representation learning of the referred object.
Besides, the absence of sufficient cross-modal interactions results in weak
correlation between the visual and linguistic features, which increases the
difficulty of decoding the target information and limits the performance of the
model. In this paper, we propose a bidirectional correlation-driven inter-frame
interaction Transformer, dubbed BIFIT, to address these issues in RVOS.
Specifically, we design a lightweight and plug-and-play inter-frame interaction
module in the Transformer decoder to efficiently learn the spatio-temporal
features of the referred object, so as to decode the object information in the
video sequence more precisely and generate more accurate segmentation results.
Moreover, a bidirectional vision-language interaction module is implemented
before the multimodal Transformer to enhance the correlation between the visual
and linguistic features, thus facilitating the language queries to decode more
precise object information from visual features and ultimately improving the
segmentation performance. Extensive experimental results on four benchmarks
validate the superiority of our BIFIT over state-of-the-art methods and the
effectiveness of our proposed modules.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)は、対象オブジェクトを言語表現によって記述されたビデオシーケンスにセグメントすることを目的としている。
典型的なマルチモーダルトランスフォーマーベースのRVOSは、フレーム非依存の方法でプロセスビデオシーケンスにアプローチし、高い計算コストを削減するが、参照対象の時間的コヒーレンスモデリングと時空間的表現学習のためのフレーム間相互作用の欠如により性能が制限される。
さらに、十分なクロスモーダル相互作用が欠如すると、視覚的特徴と言語的特徴の相関が弱まり、対象情報の復号化が困難になり、モデルの性能が制限される。
本稿では、RVOSにおけるこれらの問題に対処するために、BIFITと呼ばれる双方向相関駆動のフレーム間相互作用変換器を提案する。
具体的には、トランスフォーマーデコーダにおける軽量でプラグアンドプレイなフレーム間相互作用モジュールを設計し、参照オブジェクトの時空間的特徴を効率的に学習し、ビデオシーケンス内のオブジェクト情報をより正確にデコードし、より正確なセグメンテーション結果を生成する。
さらに,視覚的特徴と言語的特徴の相関性を高めるために,マルチモーダル変換器の前に双方向の視覚言語対話モジュールを実装し,視覚的特徴からより正確な対象情報をデコードし,最終的にセグメンテーション性能を向上させる。
4つのベンチマークによる大規模な実験結果から,BIFITの最先端手法に対する優位性と提案モジュールの有効性が検証された。
関連論文リスト
- InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Efficient Unsupervised Video Object Segmentation Network Based on Motion
Guidance [1.5736899098702974]
本稿では,モーションガイダンスに基づく映像オブジェクト分割ネットワークを提案する。
モデルは、デュアルストリームネットワーク、モーションガイダンスモジュール、マルチスケールプログレッシブフュージョンモジュールを含む。
実験により,提案手法の優れた性能が証明された。
論文 参考訳(メタデータ) (2022-11-10T06:13:23Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。
注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。
提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文 参考訳(メタデータ) (2021-01-21T20:06:12Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。