論文の概要: A Unified Multiscale Encoder-Decoder Transformer for Video Segmentation
- arxiv url: http://arxiv.org/abs/2304.05930v2
- Date: Mon, 26 Feb 2024 20:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 00:43:07.975265
- Title: A Unified Multiscale Encoder-Decoder Transformer for Video Segmentation
- Title(参考訳): ビデオセグメンテーションのためのマルチスケールエンコーダ・デコーダトランスの一構成法
- Authors: Rezaul Karim, He Zhao, Richard P. Wildes, Mennatullah Siam
- Abstract要約: 本稿では,ビデオ中の高密度な予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。
提示されたMED-VT(Multiscale-Decoder Video)は、ビデオ全体にわたってマルチスケール表現を使用し、ビデオ以外の任意の入力を使用する。
本稿では,時間的に一貫したビデオ予測を提供するため,多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
- 参考スコア(独自算出の注目度): 13.703655451279921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an end-to-end trainable unified multiscale
encoder-decoder transformer that is focused on dense prediction tasks in video.
The presented Multiscale Encoder-Decoder Video Transformer (MED-VT) uses
multiscale representation throughout and employs an optional input beyond video
(e.g., audio), when available, for multimodal processing (MED-VT++). Multiscale
representation at both encoder and decoder yields three key benefits: (i)
implicit extraction of spatiotemporal features at different levels of
abstraction for capturing dynamics without reliance on input optical flow, (ii)
temporal consistency at encoding and (iii) coarse-to-fine detection for
high-level (e.g., object) semantics to guide precise localization at decoding.
Moreover, we present a transductive learning scheme through many-to-many label
propagation to provide temporally consistent video predictions. We showcase
MED-VT/MED-VT++ on three unimodal video segmentation tasks (Automatic Video
Object Segmentation (AVOS), actor-action segmentation and Video Semantic
Segmentation (VSS)) as well as a multimodal segmentation task (Audio-Visual
Segmentation (AVS)). Results show that the proposed architecture outperforms
alternative state-of-the-art approaches on multiple benchmarks using only video
(and optional audio) as input, without reliance on optical flow. Finally, to
document details of the model's internal learned representations, we present a
detailed interpretability study, encompassing both quantitative and qualitative
analyses.
- Abstract(参考訳): 本稿では,ビデオの高密度予測タスクに着目した,エンドツーエンドの訓練可能なマルチスケールエンコーダ・デコーダトランスを提案する。
提示されたMED-VT(Multiscale Encoder-Decoder Video Transformer)は、マルチスケール表現を用いており、利用可能であればビデオ以外の入力(音声など)をマルチモーダル処理(MED-VT++)に使用する。
エンコーダとデコーダの両方でのマルチスケール表現は、3つの大きな利点をもたらす。
(i)入力オプティカルフローに依存せずにダイナミックスを捕捉するための抽象レベルでの時空間的特徴の暗黙的抽出
(ii)エンコードにおける時間的一貫性
(iii)デコード時の正確な局所化を導く高レベル(例えば、オブジェクト)セマンティクスの粗度から細かな検出
さらに、時間的に一貫したビデオ予測を提供するため、多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
3つのユニモーダルビデオセグメンテーションタスク(automatic video object segmentation (avos)、actor-action segmentation and video semantic segmentation (vss))、およびマルチモーダルセグメンテーションタスク(audio-visual segmentation (avs))についてmed-vt/med-vt++を紹介する。
その結果,提案手法は,映像のみを入力として,オプティカルフローに依存せずに,複数のベンチマークの代替手法よりも優れていることがわかった。
最後に、モデルの内部学習表現の詳細を文書化し、定量的および質的分析を包含した詳細な解釈可能性研究を提案する。
関連論文リスト
- EVC-MF: End-to-end Video Captioning Network with Multi-scale Features [13.85795110061781]
本稿では,ビデオキャプションのためのエンド・ツー・エンドエンコーダ・デコーダ・ネットワーク(EVC-MF)を提案する。
マルチスケールの視覚的特徴とテキスト的特徴を効果的に利用し、ビデオ記述を生成する。
その結果,EVC-MFは最先端技術に比べて競争性能が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-22T02:16:02Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - MM-ViT: Multi-Modal Video Transformer for Compressed Video Action
Recognition [11.573689558780764]
本稿では,ビデオアクション認識のためのMulti-Modal Video Transformer(MM-Vi)と呼ばれる,純粋なトランスフォーマーベースのアプローチを提案する。
複数のモダリティから抽出された多数のトークンを扱うために、空間、時間、モダリティ次元をまたいだ自己注意を分解するいくつかのモデル変種を開発する。
3つの公開行動認識ベンチマーク(UCF-101, Something-Something-v2, Kinetics-600)の大規模な実験は、MM-ViTが最先端のビデオトランスフォーマーよりも効率と精度で優れていることを示した。
論文 参考訳(メタデータ) (2021-08-20T18:05:39Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。