論文の概要: PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders
- arxiv url: http://arxiv.org/abs/2603.25398v1
- Date: Thu, 26 Mar 2026 12:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.297479
- Title: PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders
- Title(参考訳): PMT:凍結型ビジョンエンコーダを用いた画像・ビデオセグメンテーション用平板マスクトランス
- Authors: Niccolò Cavagnero, Narges Norouzi, Gijs Dubbelman, Daan de Geus,
- Abstract要約: Vision Foundation Models (VFM) は、1つの凍結エンコーダが複数の下流タスクを同時に処理できるようにする。
近年,EoMT や VidEoMT などの画像・映像セグメンテーションのための VFM ベースのエンコーダのみのモデルでは,低レイテンシで競合精度が向上している。
高速なトランスフォーマーベースセグメンテーションデコーダであるPlain Mask Decoder (PMD) を提案する。
- 参考スコア(独自算出の注目度): 21.4973168871382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Foundation Models (VFMs) pre-trained at scale enable a single frozen encoder to serve multiple downstream tasks simultaneously. Recent VFM-based encoder-only models for image and video segmentation, such as EoMT and VidEoMT, achieve competitive accuracy with remarkably low latency, yet they require finetuning the encoder, sacrificing the multi-task encoder sharing that makes VFMs practically attractive for large-scale deployment. To reconcile encoder-only simplicity and speed with frozen VFM features, we propose the Plain Mask Decoder (PMD), a fast Transformer-based segmentation decoder that operates on top of frozen VFM features. The resulting model, the Plain Mask Transformer (PMT), preserves the architectural simplicity and low latency of encoder-only designs while keeping the encoder representation unchanged and shareable. The design seamlessly applies to both image and video segmentation, inheriting the generality of the encoder-only framework. On standard image segmentation benchmarks, PMT matches the frozen-encoder state of the art while running up to ~3x faster. For video segmentation, it even performs on par with fully finetuned methods, while being up to 8x faster than state-of-the-art frozen-encoder models. Code: https://github.com/tue-mps/pmt.
- Abstract(参考訳): Vision Foundation Models (VFM) は、1つの凍結エンコーダが複数の下流タスクを同時に処理できるようにする。
EoMTやVidEoMTのような最近のVFMベースのエンコーダのみのエンコーダモデルは、非常に低レイテンシで競合する精度を実現するが、エンコーダを微調整する必要があるため、VFMを大規模展開に事実上魅力的なものにするマルチタスクエンコーダ共有を犠牲にする。
高速なトランスフォーマーベースセグメンテーションデコーダであるPlain Mask Decoder (PMD) を提案する。
結果として得られたモデルであるPlain Mask Transformer (PMT) は、エンコーダのみの設計のアーキテクチャ的単純さと低レイテンシを保ちながら、エンコーダの表現は変更せず、共有可能である。
この設計は画像とビデオのセグメンテーションの両方にシームレスに適用され、エンコーダのみのフレームワークの汎用性を継承する。
標準的なイメージセグメンテーションベンチマークでは、PMTは凍結エンコーダの状態と一致し、最大3倍高速に動作している。
ビデオセグメンテーションでは、完全に微調整されたメソッドと同等に動作し、最先端のフリーズエンコーダモデルよりも最大8倍高速である。
コード:https://github.com/tue-mps/pmt.com
関連論文リスト
- VidEoMT: Your ViT is Secretly Also a Video Segmentation Model [30.92193335524048]
既存のオンラインビデオセグメンテーションモデルは通常、フレームごとのセグメンテーションと複雑な特殊なトラッキングモジュールを組み合わせる。
近年の研究では、プレーンビジョントランスフォーマー(ViT)エンコーダは、特別なモジュールを必要とせずに正確な画像セグメンテーションを行うことができることが示唆されている。
本稿では,ビデオ専用Mask Transformer (VidEoMT) を提案する。
論文 参考訳(メタデータ) (2026-02-19T20:14:14Z) - Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder [41.0853762937392]
本稿では, シンプルさとデコード品質を同時に符号化する非対称なエクストリーム画像圧縮(AEIC)フレームワークを提案する。
AEICは中程度のあるいは浅いエンコーダネットワークを使用し、一方の拡散デコーダを利用して高忠実性と高現実性を維持する。
AEICは、Ultra-lowsでのレート歪み知覚性能の既存の手法よりも優れているだけでなく、1080Pの入力画像上で35.8FPSの符号化効率も優れていることを示した。
論文 参考訳(メタデータ) (2025-12-13T07:59:48Z) - SIEDD: Shared-Implicit Encoder with Discrete Decoders [36.705337163276255]
Inlicit Neural Representations (INR)は、ビデオごとの最適化機能を学ぶことによって、ビデオ圧縮に例外的な忠実度を提供する。
既存のINRエンコーディングの高速化の試みは、しばしば再建品質や重要な座標レベルの制御を犠牲にしている。
これらの妥協なしにINRエンコーディングを根本的に高速化する新しいアーキテクチャであるSIEDDを紹介する。
論文 参考訳(メタデータ) (2025-06-29T19:39:43Z) - Your ViT is Secretly an Image Segmentation Model [50.71238842539735]
Vision Transformer (ViT) は、様々なコンピュータビジョンタスクにおいて、顕著なパフォーマンスとスケーラビリティを示している。
タスク固有のコンポーネントによって導入された帰納バイアスは、代わりにViT自身で学習できることを示す。
画像セグメンテーションを行うためにプレーンな ViT アーキテクチャを再利用した Mask Transformer (EoMT) を導入する。
論文 参考訳(メタデータ) (2025-03-24T19:56:02Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
このようなモデルのスケーリングには効率性が優先されるため、最先端のMask2Formerでは、変換器エンコーダのみに計算の50%を使用しています。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - MED-VT++: Unifying Multimodal Learning with a Multiscale Encoder-Decoder Video Transformer [12.544216587327387]
本稿では,ビデオ中の高密度な予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。
提示されたMED-VT(Multiscale-Decoder Video)は、ビデオ全体にわたってマルチスケール表現を使用し、ビデオ以外の任意の入力を使用する。
本稿では,時間的に一貫したビデオ予測を提供するため,多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:50:19Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。