Fugu-MT 論文翻訳(概要): Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation

論文の概要: Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation

arxiv url: http://arxiv.org/abs/2203.15969v1
Date: Wed, 30 Mar 2022 01:06:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-31 15:09:23.428127
Title: Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation
Title（参考訳）: ビデオセグメント参照のためのディープインターリーブ2ストリームエンコーダ
Authors: Guang Feng, Lihe Zhang, Zhiwei Hu, Huchuan Lu
Abstract要約: まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
参考スコア（独自算出の注目度）: 87.49579477873196
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Referring video segmentation aims to segment the corresponding video object described by the language expression. To address this task, we first design a two-stream encoder to extract CNN-based visual features and transformer-based linguistic features hierarchically, and a vision-language mutual guidance (VLMG) module is inserted into the encoder multiple times to promote the hierarchical and progressive fusion of multi-modal features. Compared with the existing multi-modal fusion methods, this two-stream encoder takes into account the multi-granularity linguistic context, and realizes the deep interleaving between modalities with the help of VLGM. In order to promote the temporal alignment between frames, we further propose a language-guided multi-scale dynamic filtering (LMDF) module to strengthen the temporal coherence, which uses the language-guided spatial-temporal features to generate a set of position-specific dynamic filters to more flexibly and effectively update the feature of current frame. Extensive experiments on four datasets verify the effectiveness of the proposed model.
Abstract（参考訳）: 参照ビデオセグメンテーションは、言語表現で記述された対応するビデオオブジェクトをセグメンテーションすることを目的としている。この課題に対処するために,まず,cnnに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計し,視覚言語相互誘導(vlmg)モジュールを複数回エンコーダに挿入し,マルチモーダル特徴の階層的・漸進的融合を促進する。既存のマルチモーダル融合法と比較して、この2ストリームエンコーダは、多粒度言語文脈を考慮に入れ、VLGMの助けを借りて、モーダル間の深いインターリーブを実現する。さらに, フレーム間の時間的アライメントを促進するために, 時間的コヒーレンスを強化するために, 時間的コヒーレンスを強化するための言語誘導多スケール動的フィルタリング (lmdf) モジュールを提案する。 4つのデータセットに対する大規模な実験により、提案モデルの有効性が検証された。

関連論文リスト

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文参考訳（メタデータ） (2024-08-15T11:36:18Z)
Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for Referring Video Object Segmentation [44.952526831843386]
RVOSにおけるこれらの問題に対処するために,BIFITと呼ばれる相関駆動のフレーム間相互作用変換器を提案する。具体的には、デコーダ内の軽量なプラグアンドプレイフレーム間相互作用モジュールを設計する。視覚的特徴と言語的特徴の相関を容易にするために、トランスフォーマーの前に視覚フェリング相互作用が実装される。
論文参考訳（メタデータ） (2023-07-02T10:29:35Z)
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。 MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文参考訳（メタデータ） (2023-05-25T17:59:47Z)
MED-VT++: Unifying Multimodal Learning with a Multiscale Encoder-Decoder Video Transformer [12.544216587327387]
本稿では,ビデオ中の高密度な予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。提示されたMED-VT(Multiscale-Decoder Video)は、ビデオ全体にわたってマルチスケール表現を使用し、ビデオ以外の任意の入力を使用する。本稿では,時間的に一貫したビデオ予測を提供するため,多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
論文参考訳（メタデータ） (2023-04-12T15:50:19Z)
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文参考訳（メタデータ） (2022-04-06T02:42:33Z)
Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation [90.74732705236336]
言語クエリビデオアクターセグメンテーションは、ターゲットフレーム内の自然言語クエリで記述されたアクションを実行するアクターのピクセルマスクを予測することを目的としています。本研究では,ビデオクリップ上に3次元時間エンコーダを内蔵した空間時空間エンコーダ・デコーダフレームワークと,対象フレーム上に2次元空間エンコーダを組み込んで,クエリアクターを正確にセグメント化することを提案する。
論文参考訳（メタデータ） (2021-05-14T13:27:53Z)
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。 4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-05-05T02:27:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。