論文の概要: Language-Bridged Spatial-Temporal Interaction for Referring Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2206.03789v1
- Date: Wed, 8 Jun 2022 10:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 14:38:06.447604
- Title: Language-Bridged Spatial-Temporal Interaction for Referring Video Object
Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーション参照のための言語ブリッジ型時空間インタラクション
- Authors: Zihan Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei, Jizhong Han, Si
Liu
- Abstract要約: ビデオオブジェクトセグメンテーションの参照は、ビデオ内の自然言語表現によって参照されるオブジェクトのフォアグラウンドラベルを予測することを目的としている。
従来の手法は3D ConvNetsに依存するか、さらに2D ConvNetsをエンコーダとして組み込んで、複雑な時空間の特徴を抽出する。
本稿では,言語を中間ブリッジとして利用するLBDT(Language-Bridged Duplex Transfer)モジュールを提案する。
- 参考スコア(独自算出の注目度): 28.472006665544033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation aims to predict foreground labels for
objects referred by natural language expressions in videos. Previous methods
either depend on 3D ConvNets or incorporate additional 2D ConvNets as encoders
to extract mixed spatial-temporal features. However, these methods suffer from
spatial misalignment or false distractors due to delayed and implicit
spatial-temporal interaction occurring in the decoding phase. To tackle these
limitations, we propose a Language-Bridged Duplex Transfer (LBDT) module which
utilizes language as an intermediary bridge to accomplish explicit and adaptive
spatial-temporal interaction earlier in the encoding phase. Concretely,
cross-modal attention is performed among the temporal encoder, referring words
and the spatial encoder to aggregate and transfer language-relevant motion and
appearance information. In addition, we also propose a Bilateral Channel
Activation (BCA) module in the decoding phase for further denoising and
highlighting the spatial-temporal consistent features via channel-wise
activation. Extensive experiments show our method achieves new state-of-the-art
performances on four popular benchmarks with 6.8% and 6.9% absolute AP gains on
A2D Sentences and J-HMDB Sentences respectively, while consuming around 7x less
computational overhead.
- Abstract(参考訳): ビデオオブジェクトのセグメンテーションは、ビデオ内の自然言語表現で参照されるオブジェクトの前景ラベルを予測することを目的としている。
従来の手法は3D ConvNetsに依存するか、さらに2D ConvNetsをエンコーダとして組み込んで、複雑な時空間の特徴を抽出する。
しかし、これらの手法はデコードフェーズで発生する遅延的かつ暗黙的な空間的-時間的相互作用によって、空間的誤用や誤用に苦しむ。
そこで本稿では,この制約に対処するために,言語を中間ブリッジとして利用するlbdtモジュールを提案する。
具体的には、時間エンコーダ、参照語及び空間エンコーダ間でクロスモーダルな注意を行い、言語関連動作及び出現情報を集約・転送する。
また,チャネルワイドアクティベーションによる空間的・時間的一貫した特徴をより強調し強調するために,デコードフェーズにおけるバイラテラルチャネルアクティベーション(BCA)モジュールを提案する。
A2D文とJ-HMDB文をそれぞれ6.8%と6.9%の絶対APゲインを持つ4つのベンチマークで,計算オーバーヘッドの約7倍の時間を要した。
関連論文リスト
- A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection [7.202931445597171]
本稿では,未編集映像の動作を検出する新しいネットワークを提案する。
このネットワークは、モーション対応2D位置符号化を利用して、ビデオフレーム内のアクションセマンティクスの位置を符号化する。
このアプローチは、4つの提案されたデータセット上で最先端のソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-05-13T21:47:35Z) - Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for
Referring Video Object Segmentation [44.952526831843386]
RVOSにおけるこれらの問題に対処するために,BIFITと呼ばれる相関駆動のフレーム間相互作用変換器を提案する。
具体的には、デコーダ内の軽量なプラグアンドプレイフレーム間相互作用モジュールを設計する。
視覚的特徴と言語的特徴の相関を容易にするために、トランスフォーマーの前に視覚フェリング相互作用が実装される。
論文 参考訳(メタデータ) (2023-07-02T10:29:35Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor
Segmentation [90.74732705236336]
言語クエリビデオアクターセグメンテーションは、ターゲットフレーム内の自然言語クエリで記述されたアクションを実行するアクターのピクセルマスクを予測することを目的としています。
本研究では,ビデオクリップ上に3次元時間エンコーダを内蔵した空間時空間エンコーダ・デコーダフレームワークと,対象フレーム上に2次元空間エンコーダを組み込んで,クエリアクターを正確にセグメント化することを提案する。
論文 参考訳(メタデータ) (2021-05-14T13:27:53Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。