Fugu-MT 論文翻訳(概要): MED-VT: Multiscale Encoder-Decoder Video Transformer with Application to Object Segmentation

論文の概要: MED-VT: Multiscale Encoder-Decoder Video Transformer with Application to Object Segmentation

arxiv url: http://arxiv.org/abs/2304.05930v1
Date: Wed, 12 Apr 2023 15:50:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-13 14:35:50.374211
Title: MED-VT: Multiscale Encoder-Decoder Video Transformer with Application to Object Segmentation
Title（参考訳）: med-vt:マルチスケールエンコーダ・デコーダビデオトランスとオブジェクトセグメンテーションへの応用
Authors: Rezaul Karim, He Zhao, Richard P. Wildes, Mennatullah Siam
Abstract要約: Multiscale Video Transformer (MED-VT) on Automatic Video Object segmentation (AVOS) 本稿では,ビデオ中の高密度な予測タスクに着目したマルチスケールエンコーダ・デコーダ変換器を提案する。
参考スコア（独自算出の注目度）: 13.398388821131357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multiscale video transformers have been explored in a wide variety of vision tasks. To date, however, the multiscale processing has been confined to the encoder or decoder alone. We present a unified multiscale encoder-decoder transformer that is focused on dense prediction tasks in videos. Multiscale representation at both encoder and decoder yields key benefits of implicit extraction of spatiotemporal features (i.e. without reliance on input optical flow) as well as temporal consistency at encoding and coarseto-fine detection for high-level (e.g. object) semantics to guide precise localization at decoding. Moreover, we propose a transductive learning scheme through many-to-many label propagation to provide temporally consistent predictions. We showcase our Multiscale Encoder-Decoder Video Transformer (MED-VT) on Automatic Video Object Segmentation (AVOS) and actor/action segmentation, where we outperform state-of-the-art approaches on multiple benchmarks using only raw images, without using optical flow.
Abstract（参考訳）: マルチスケールビデオトランスは様々な視覚タスクで研究されている。しかし、これまでのところ、マルチスケール処理はエンコーダまたはデコーダのみに限られている。本稿では,ビデオ中の高密度予測タスクに着目したマルチスケールエンコーダ・デコーダ変換器を提案する。エンコーダとデコーダの両方でのマルチスケール表現は、空間的特徴(すなわち入力光フローに依存しない)の暗黙的な抽出と、復号時の正確な局所化を導くために、高レベル(例えばオブジェクト)セマンティクスの符号化における時間的一貫性と粗大な検出の利点をもたらす。さらに,多対多ラベル伝播による帰納的学習方式を提案し,時間的に一貫した予測を行う。我々は,自動ビデオオブジェクトセグメンテーション(AVOS)とアクタ/アクションセグメンテーションにMED-VT(Multiscale Encoder-Decoder Video Transformer)を紹介する。

関連論文リスト

Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks [21.710127132217526]
本稿では,ビデオ・インタフェース・ネットワーク (VIN) と呼ばれる新しいパラダイムを導入し,ビデオ・チャンクの並列推論を可能にする抽象化モジュールでDiTを拡張した。 VINは局所チャンクのノイズの多い入力と符号化された表現からグローバルセマンティクスをエンコードする。フルジェネレーションよりも25～40%少ないFLOPを用いて,最先端動作のスムーズさを実現する。
論文参考訳（メタデータ） (2025-03-21T21:13:02Z)
EVC-MF: End-to-end Video Captioning Network with Multi-scale Features [13.85795110061781]
本稿では,ビデオキャプションのためのエンド・ツー・エンドエンコーダ・デコーダ・ネットワーク(EVC-MF)を提案する。マルチスケールの視覚的特徴とテキスト的特徴を効果的に利用し、ビデオ記述を生成する。その結果,EVC-MFは最先端技術に比べて競争性能が高いことがわかった。
論文参考訳（メタデータ） (2024-10-22T02:16:02Z)
When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文参考訳（メタデータ） (2024-08-15T11:36:18Z)
Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文参考訳（メタデータ） (2023-10-31T20:15:40Z)
Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文参考訳（メタデータ） (2022-03-30T01:06:13Z)
MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文参考訳（メタデータ） (2022-03-14T13:15:09Z)
MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition [11.573689558780764]
本稿では,ビデオアクション認識のためのMulti-Modal Video Transformer(MM-Vi)と呼ばれる,純粋なトランスフォーマーベースのアプローチを提案する。複数のモダリティから抽出された多数のトークンを扱うために、空間、時間、モダリティ次元をまたいだ自己注意を分解するいくつかのモデル変種を開発する。 3つの公開行動認識ベンチマーク(UCF-101, Something-Something-v2, Kinetics-600)の大規模な実験は、MM-ViTが最先端のビデオトランスフォーマーよりも効率と精度で優れていることを示した。
論文参考訳（メタデータ） (2021-08-20T18:05:39Z)
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。その結果,全ての評価指標について最先端の性能を示すことができた。
論文参考訳（メタデータ） (2020-07-08T02:00:22Z)
Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文参考訳（メタデータ） (2020-03-09T16:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。