論文の概要: MED-VT: Multiscale Encoder-Decoder Video Transformer with Application to
Object Segmentation
- arxiv url: http://arxiv.org/abs/2304.05930v1
- Date: Wed, 12 Apr 2023 15:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:35:50.374211
- Title: MED-VT: Multiscale Encoder-Decoder Video Transformer with Application to
Object Segmentation
- Title(参考訳): med-vt:マルチスケールエンコーダ・デコーダビデオトランスとオブジェクトセグメンテーションへの応用
- Authors: Rezaul Karim, He Zhao, Richard P. Wildes, Mennatullah Siam
- Abstract要約: Multiscale Video Transformer (MED-VT) on Automatic Video Object segmentation (AVOS)
本稿では,ビデオ中の高密度な予測タスクに着目したマルチスケールエンコーダ・デコーダ変換器を提案する。
- 参考スコア(独自算出の注目度): 13.398388821131357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiscale video transformers have been explored in a wide variety of vision
tasks. To date, however, the multiscale processing has been confined to the
encoder or decoder alone. We present a unified multiscale encoder-decoder
transformer that is focused on dense prediction tasks in videos. Multiscale
representation at both encoder and decoder yields key benefits of implicit
extraction of spatiotemporal features (i.e. without reliance on input optical
flow) as well as temporal consistency at encoding and coarseto-fine detection
for high-level (e.g. object) semantics to guide precise localization at
decoding. Moreover, we propose a transductive learning scheme through
many-to-many label propagation to provide temporally consistent predictions. We
showcase our Multiscale Encoder-Decoder Video Transformer (MED-VT) on Automatic
Video Object Segmentation (AVOS) and actor/action segmentation, where we
outperform state-of-the-art approaches on multiple benchmarks using only raw
images, without using optical flow.
- Abstract(参考訳): マルチスケールビデオトランスは様々な視覚タスクで研究されている。
しかし、これまでのところ、マルチスケール処理はエンコーダまたはデコーダのみに限られている。
本稿では,ビデオ中の高密度予測タスクに着目したマルチスケールエンコーダ・デコーダ変換器を提案する。
エンコーダとデコーダの両方でのマルチスケール表現は、空間的特徴(すなわち入力光フローに依存しない)の暗黙的な抽出と、復号時の正確な局所化を導くために、高レベル(例えばオブジェクト)セマンティクスの符号化における時間的一貫性と粗大な検出の利点をもたらす。
さらに,多対多ラベル伝播による帰納的学習方式を提案し,時間的に一貫した予測を行う。
我々は,自動ビデオオブジェクトセグメンテーション(AVOS)とアクタ/アクションセグメンテーションにMED-VT(Multiscale Encoder-Decoder Video Transformer)を紹介する。
関連論文リスト
- EVC-MF: End-to-end Video Captioning Network with Multi-scale Features [13.85795110061781]
本稿では,ビデオキャプションのためのエンド・ツー・エンドエンコーダ・デコーダ・ネットワーク(EVC-MF)を提案する。
マルチスケールの視覚的特徴とテキスト的特徴を効果的に利用し、ビデオ記述を生成する。
その結果,EVC-MFは最先端技術に比べて競争性能が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-22T02:16:02Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - MM-ViT: Multi-Modal Video Transformer for Compressed Video Action
Recognition [11.573689558780764]
本稿では,ビデオアクション認識のためのMulti-Modal Video Transformer(MM-Vi)と呼ばれる,純粋なトランスフォーマーベースのアプローチを提案する。
複数のモダリティから抽出された多数のトークンを扱うために、空間、時間、モダリティ次元をまたいだ自己注意を分解するいくつかのモデル変種を開発する。
3つの公開行動認識ベンチマーク(UCF-101, Something-Something-v2, Kinetics-600)の大規模な実験は、MM-ViTが最先端のビデオトランスフォーマーよりも効率と精度で優れていることを示した。
論文 参考訳(メタデータ) (2021-08-20T18:05:39Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。