Fugu-MT 論文翻訳(概要): VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

論文の概要: VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

arxiv url: http://arxiv.org/abs/2602.17807v2
Date: Mon, 23 Feb 2026 18:10:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 15:42:50.182136
Title: VidEoMT: Your ViT is Secretly Also a Video Segmentation Model
Title（参考訳）: VidEoMT:ViTもビデオセグメンテーションモデル
Authors: Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus,
Abstract要約: 既存のオンラインビデオセグメンテーションモデルは通常、フレームごとのセグメンテーションと複雑な特殊なトラッキングモジュールを組み合わせる。近年の研究では、プレーンビジョントランスフォーマー(ViT)エンコーダは、特別なモジュールを必要とせずに正確な画像セグメンテーションを行うことができることが示唆されている。本稿では,ビデオ専用Mask Transformer (VidEoMT) を提案する。
参考スコア（独自算出の注目度）: 30.92193335524048
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing online video segmentation models typically combine a per-frame segmenter with complex specialized tracking modules. While effective, these modules introduce significant architectural complexity and computational overhead. Recent studies suggest that plain Vision Transformer (ViT) encoders, when scaled with sufficient capacity and large-scale pre-training, can conduct accurate image segmentation without requiring specialized modules. Motivated by this observation, we propose the Video Encoder-only Mask Transformer (VidEoMT), a simple encoder-only video segmentation model that eliminates the need for dedicated tracking modules. To enable temporal modeling in an encoder-only ViT, VidEoMT introduces a lightweight query propagation mechanism that carries information across frames by reusing queries from the previous frame. To balance this with adaptability to new content, it employs a query fusion strategy that combines the propagated queries with a set of temporally-agnostic learned queries. As a result, VidEoMT attains the benefits of a tracker without added complexity, achieving competitive accuracy while being 5x-10x faster, running at up to 160 FPS with a ViT-L backbone. Code: https://www.tue-mps.org/videomt/
Abstract（参考訳）: 既存のオンラインビデオセグメンテーションモデルは通常、フレームごとのセグメンテーションと複雑な特殊なトラッキングモジュールを組み合わせる。有効ではあるが、これらのモジュールは重要なアーキテクチャ上の複雑さと計算オーバーヘッドをもたらす。近年の研究では、視覚変換器(ViT)エンコーダは、十分なキャパシティと大規模な事前訓練により、特別なモジュールを必要とせずに正確な画像セグメンテーションを行うことができることが示唆されている。そこで本研究では,ビデオエンコーダのみのMask Transformer (VidEoMT) を提案する。エンコーダのみのViTでテンポラリなモデリングを可能にするため、VidEoMTでは、以前のフレームからクエリを再利用することで、フレーム間で情報を伝達する軽量なクエリ伝搬機構を導入している。これと新しいコンテンツへの適応性のバランスをとるために、プロパゲートされたクエリと時間的に依存しない一連の学習クエリを組み合わせたクエリ融合戦略を採用している。その結果、VidEoMTは複雑さを増すことなくトラッカーの利点を享受でき、競争精度は5×10倍速く、最大160FPSのViT-Lバックボーンで動作する。コード:https://www.tue-mps.org/videomt/

関連論文リスト

TrajTok: Learning Trajectory Tokens enables better Video Understanding [63.1260672430712]
ビデオモデルのトークン化は、通常、パッチ化によって、過剰で冗長な数のトークンを生成する。そこで我々は,ビデオモデルと完全に統合され,共にトレーニングされたビデオトークンモジュールであるTrajTokを提案する。本稿では,前処理した視覚特徴量(TrajAdapter)の探索ヘッドとしてシームレスに統合できるか,特に長ビデオ推論において高い性能を持つ視覚言語モデル(TrajVLM)のアライメントコネクタとして利用できることを示す。
論文参考訳（メタデータ） (2026-02-26T09:15:34Z)
Déjà Vu: Efficient Video-Language Query Engine with Learning-based Inter-Frame Computation Reuse [13.680753232748705]
本稿では、連続するフレーム間の計算を再利用することで、VTベースのビデオLMを高速化するビデオ言語クエリエンジンであるD'eja Vuを紹介する。コアとなるReuseViTは、ビデオLMタスク用に特別に設計された修正ViTモデルであり、フレーム間の再利用機会を検出することを学ぶ。 D'eja Vuは、2%のエラーバウンド内で最大2.64倍の埋め込み生成を加速し、大規模なビデオ解析のためのビデオLMの実用性を劇的に向上させることを示す。
論文参考訳（メタデータ） (2025-06-17T01:59:10Z)
Your ViT is Secretly an Image Segmentation Model [50.71238842539735]
Vision Transformer (ViT) は、様々なコンピュータビジョンタスクにおいて、顕著なパフォーマンスとスケーラビリティを示している。タスク固有のコンポーネントによって導入された帰納バイアスは、代わりにViT自身で学習できることを示す。画像セグメンテーションを行うためにプレーンな ViT アーキテクチャを再利用した Mask Transformer (EoMT) を導入する。
論文参考訳（メタデータ） (2025-03-24T19:56:02Z)
STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。 N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文参考訳（メタデータ） (2024-02-04T17:52:04Z)
Multi-entity Video Transformers for Fine-Grained Video Representation Learning [34.26732761916984]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。このアプローチの重要な側面は、時間パイプラインにおけるシーン情報の共有の改善です。我々のMV-Former(Multi-entity Video Transformer)は、フレームを時間にわたってリンクされたトークンとして表現されたエンティティのグループとして処理します。
論文参考訳（メタデータ） (2023-11-17T21:23:12Z)
SegViTv2: Exploring Efficient and Continual Semantic Segmentation with Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。 Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文参考訳（メタデータ） (2023-06-09T22:29:56Z)
Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。 MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。 5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文参考訳（メタデータ） (2022-01-12T03:33:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。