論文の概要: MED-VT++: Unifying Multimodal Learning with a Multiscale Encoder-Decoder Video Transformer
- arxiv url: http://arxiv.org/abs/2304.05930v3
- Date: Tue, 17 Sep 2024 02:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 23:00:28.818521
- Title: MED-VT++: Unifying Multimodal Learning with a Multiscale Encoder-Decoder Video Transformer
- Title(参考訳): MED-VT++:マルチスケールエンコーダデコーダビデオ変換器によるマルチモーダル学習の統合
- Authors: Rezaul Karim, He Zhao, Richard P. Wildes, Mennatullah Siam,
- Abstract要約: 本稿では,ビデオ中の高密度な予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。
提示されたMED-VT(Multiscale-Decoder Video)は、ビデオ全体にわたってマルチスケール表現を使用し、ビデオ以外の任意の入力を使用する。
本稿では,時間的に一貫したビデオ予測を提供するため,多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
- 参考スコア(独自算出の注目度): 12.544216587327387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an end-to-end trainable unified multiscale encoder-decoder transformer that is focused on dense prediction tasks in video. The presented Multiscale Encoder-Decoder Video Transformer (MED-VT) uses multiscale representation throughout and employs an optional input beyond video (e.g., audio), when available, for multimodal processing (MED-VT++). Multiscale representation at both encoder and decoder yields three key benefits: (i) implicit extraction of spatiotemporal features at different levels of abstraction for capturing dynamics without reliance on input optical flow, (ii) temporal consistency at encoding and (iii) coarse-to-fine detection for high-level (e.g., object) semantics to guide precise localization at decoding. Moreover, we present a transductive learning scheme through many-to-many label propagation to provide temporally consistent video predictions. We showcase MED-VT/MED-VT++ on three unimodal video segmentation tasks (Automatic Video Object Segmentation (AVOS), actor-action segmentation and Video Semantic Segmentation (VSS)) as well as a multimodal segmentation task (Audio-Visual Segmentation (AVS)). Results show that the proposed architecture outperforms alternative state-of-the-art approaches on multiple benchmarks using only video (and optional audio) as input, without reliance on optical flow. Finally, to document details of the model's internal learned representations, we present a detailed interpretability study, encompassing both quantitative and qualitative analyses.
- Abstract(参考訳): 本稿では,ビデオ中の高密度予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。
提示されたMED-VT(Multiscale Encoder-Decoder Video Transformer)は、マルチスケール表現を用いており、利用可能であればビデオ以外の入力(例えば音声)をマルチモーダル処理(MED-VT++)に使用する。
エンコーダとデコーダの両方でのマルチスケール表現は、3つの大きな利点をもたらす。
一 入力光の流れに依存しないダイナミックスを捉えるため、異なる抽象レベルで時空間的特徴を暗黙的に抽出すること。
(二)符号化時の時間的整合性及び整合性
三 復号時の正確な位置決めを導くために、高レベルな(例えば、オブジェクト)セマンティクスの粗大な検出を行う。
さらに、時間的に一貫したビデオ予測を提供するため、多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
我々は,MED-VT/MED-VT++を3つの非モーダルビデオセグメンテーションタスク(AVOS),アクターアクションセグメンテーション,ビデオセマンティックセグメンテーション(VSS)),マルチモーダルセグメンテーションタスク(AVS)で紹介する。
その結果,提案アーキテクチャは,光学的フローに依存することなく,ビデオ(および任意のオーディオ)のみを入力として,複数のベンチマークに対する代替的最先端手法よりも優れていた。
最後に、モデルの内部的学習表現の詳細を文書化するために、定量的および定性的な分析の両方を含む詳細な解釈可能性の研究を示す。
関連論文リスト
- EVC-MF: End-to-end Video Captioning Network with Multi-scale Features [13.85795110061781]
本稿では,ビデオキャプションのためのエンド・ツー・エンドエンコーダ・デコーダ・ネットワーク(EVC-MF)を提案する。
マルチスケールの視覚的特徴とテキスト的特徴を効果的に利用し、ビデオ記述を生成する。
その結果,EVC-MFは最先端技術に比べて競争性能が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-22T02:16:02Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - MM-ViT: Multi-Modal Video Transformer for Compressed Video Action
Recognition [11.573689558780764]
本稿では,ビデオアクション認識のためのMulti-Modal Video Transformer(MM-Vi)と呼ばれる,純粋なトランスフォーマーベースのアプローチを提案する。
複数のモダリティから抽出された多数のトークンを扱うために、空間、時間、モダリティ次元をまたいだ自己注意を分解するいくつかのモデル変種を開発する。
3つの公開行動認識ベンチマーク(UCF-101, Something-Something-v2, Kinetics-600)の大規模な実験は、MM-ViTが最先端のビデオトランスフォーマーよりも効率と精度で優れていることを示した。
論文 参考訳(メタデータ) (2021-08-20T18:05:39Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。