論文の概要: Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor
Segmentation
- arxiv url: http://arxiv.org/abs/2105.06818v1
- Date: Fri, 14 May 2021 13:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:38:55.351890
- Title: Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor
Segmentation
- Title(参考訳): 言語操作型ビデオアクターセグメンテーションのための協調的空間時間モデリング
- Authors: Tianrui Hui, Shaofei Huang, Si Liu, Zihan Ding, Guanbin Li, Wenguan
Wang, Jizhong Han, Fei Wang
- Abstract要約: 言語クエリビデオアクターセグメンテーションは、ターゲットフレーム内の自然言語クエリで記述されたアクションを実行するアクターのピクセルマスクを予測することを目的としています。
本研究では,ビデオクリップ上に3次元時間エンコーダを内蔵した空間時空間エンコーダ・デコーダフレームワークと,対象フレーム上に2次元空間エンコーダを組み込んで,クエリアクターを正確にセグメント化することを提案する。
- 参考スコア(独自算出の注目度): 90.74732705236336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-queried video actor segmentation aims to predict the pixel-level
mask of the actor which performs the actions described by a natural language
query in the target frames. Existing methods adopt 3D CNNs over the video clip
as a general encoder to extract a mixed spatio-temporal feature for the target
frame. Though 3D convolutions are amenable to recognizing which actor is
performing the queried actions, it also inevitably introduces misaligned
spatial information from adjacent frames, which confuses features of the target
frame and yields inaccurate segmentation. Therefore, we propose a collaborative
spatial-temporal encoder-decoder framework which contains a 3D temporal encoder
over the video clip to recognize the queried actions, and a 2D spatial encoder
over the target frame to accurately segment the queried actors. In the decoder,
a Language-Guided Feature Selection (LGFS) module is proposed to flexibly
integrate spatial and temporal features from the two encoders. We also propose
a Cross-Modal Adaptive Modulation (CMAM) module to dynamically recombine
spatial- and temporal-relevant linguistic features for multimodal feature
interaction in each stage of the two encoders. Our method achieves new
state-of-the-art performance on two popular benchmarks with less computational
overhead than previous approaches.
- Abstract(参考訳): 言語クエリ付きビデオアクタセグメンテーションは、対象フレーム内の自然言語クエリによって記述されたアクションを実行するアクタのピクセルレベルのマスクを予測することを目的としている。
既存の手法では、ビデオクリップ上の3D CNNを汎用エンコーダとして採用し、ターゲットフレームの混合時空間特徴を抽出する。
3D畳み込みは、どのアクターがクエリされたアクションを実行しているかを認識するのに役立つが、隣接するフレームから不正確な空間情報も必然的に導入し、ターゲットフレームの特徴を混乱させ、不正確なセグメンテーションをもたらす。
そこで本稿では,映像クリップ上の3次元時間エンコーダを含む協調型空間エンコーダ・デコーダフレームワークと,対象フレーム上の2次元空間エンコーダを用いて,クエリされたアクタを正確に分割する手法を提案する。
このデコーダでは,2つのエンコーダから空間的特徴と時間的特徴を柔軟に統合するlgfsモジュールが提案されている。
また,2つのエンコーダの各段階において,空間的特徴と時間的関係を持つ言語的特徴を動的に組み換えるクロスモーダル適応変調(cmam)モジュールを提案する。
提案手法は,従来の手法に比べて計算オーバーヘッドの少ない2つのベンチマークにおいて,新しい最先端性能を実現する。
関連論文リスト
- GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文 参考訳(メタデータ) (2024-04-08T18:24:12Z) - Language-Bridged Spatial-Temporal Interaction for Referring Video Object
Segmentation [28.472006665544033]
ビデオオブジェクトセグメンテーションの参照は、ビデオ内の自然言語表現によって参照されるオブジェクトのフォアグラウンドラベルを予測することを目的としている。
従来の手法は3D ConvNetsに依存するか、さらに2D ConvNetsをエンコーダとして組み込んで、複雑な時空間の特徴を抽出する。
本稿では,言語を中間ブリッジとして利用するLBDT(Language-Bridged Duplex Transfer)モジュールを提案する。
論文 参考訳(メタデータ) (2022-06-08T10:12:53Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Siamese Network with Interactive Transformer for Video Object
Segmentation [34.202137199782804]
本稿では,SITVOSと呼ばれる対話型トランスフォーマーを設計したネットワークを提案し,過去のフレームから現在のフレームへの効果的なコンテキスト伝搬を実現する。
過去のフレームと現在のフレームの両方のバックボーン機能を抽出するためにバックボーンアーキテクチャを使用します。
論文 参考訳(メタデータ) (2021-12-28T03:38:17Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。