論文の概要: Efficient Transformer Encoders for Mask2Former-style models
- arxiv url: http://arxiv.org/abs/2404.15244v1
- Date: Tue, 23 Apr 2024 17:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:12:44.788635
- Title: Efficient Transformer Encoders for Mask2Former-style models
- Title(参考訳): Mask2Formerスタイルモデルの効率的なトランスフォーマーエンコーダ
- Authors: Manyi Yao, Abhishek Aich, Yumin Suh, Amit Roy-Chowdhury, Christian Shelton, Manmohan Chandraker,
- Abstract要約: ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
- 参考スコア(独自算出の注目度): 57.54752243522298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformer based models bring significant improvements for image segmentation tasks. Although these architectures offer powerful capabilities irrespective of specific segmentation tasks, their use of computational resources can be taxing on deployed devices. One way to overcome this challenge is by adapting the computation level to the specific needs of the input image rather than the current one-size-fits-all approach. To this end, we introduce ECO-M2F or EffiCient TransfOrmer Encoders for Mask2Former-style models. Noting that the encoder module of M2F-style models incur high resource-intensive computations, ECO-M2F provides a strategy to self-select the number of hidden layers in the encoder, conditioned on the input image. To enable this self-selection ability for providing a balance between performance and computational efficiency, we present a three step recipe. The first step is to train the parent architecture to enable early exiting from the encoder. The second step is to create an derived dataset of the ideal number of encoder layers required for each training example. The third step is to use the aforementioned derived dataset to train a gating network that predicts the number of encoder layers to be used, conditioned on the input image. Additionally, to change the computational-accuracy tradeoff, only steps two and three need to be repeated which significantly reduces retraining time. Experiments on the public datasets show that the proposed approach reduces expected encoder computational cost while maintaining performance, adapts to various user compute resources, is flexible in architecture configurations, and can be extended beyond the segmentation task to object detection.
- Abstract(参考訳): ビジョントランスフォーマーベースのモデルは、イメージセグメンテーションタスクに大幅な改善をもたらす。
これらのアーキテクチャは、特定のセグメンテーションタスクに関係なく強力な機能を提供するが、それらの計算リソースの使用は、デプロイされたデバイスに課税することができる。
この課題を克服する1つの方法は、現在のワンサイズ・オールアプローチではなく、入力画像の特定のニーズに計算レベルを適用することである。
この目的のために,Mask2Former 形式のモデルに対して ECO-M2F あるいは EffiCient TransfOrmer Encoders を導入する。
ECO-M2Fは、M2Fスタイルのモデルのエンコーダモジュールが高リソース集約的な計算を行うのに注意し、入力画像に条件付きエンコーダ内の隠蔽層数を自己選択する戦略を提供する。
性能と計算効率のバランスをとるための自己選択機能を実現するために,3段階のレシピを提案する。
最初のステップは、エンコーダからの早期離脱を可能にするために、親アーキテクチャをトレーニングすることです。
2番目のステップは、トレーニングの各例に必要なエンコーダ層の理想的な数の派生データセットを作成することだ。
第3のステップは、前述の派生データセットを使用して、入力イメージに条件付きで使用するエンコーダレイヤの数を予測するゲーティングネットワークをトレーニングすることだ。
さらに、計算精度のトレードオフを変更するためには、再トレーニング時間を著しく短縮するステップ2と3のみを繰り返す必要がある。
公開データセットの実験では、提案手法はパフォーマンスを維持しながら、期待されるエンコーダ計算コストを削減し、様々なユーザ計算リソースに適応し、アーキテクチャ構成に柔軟であり、セグメンテーションタスクを超えてオブジェクト検出に拡張可能であることが示されている。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Comparative Study on the Performance of Categorical Variable Encoders in
Classification and Regression Tasks [11.721062526796976]
本研究では,(1)入力に対するアフィン変換を暗黙的に実行するAITモデル,2)決定木に基づく木に基づくモデル,3)kNNなどの他のモデルに分類する。
理論的には、データから適切な重みを学習することで、他のエンコーダを模倣できるという意味で、ワンホットエンコーダがAITモデルにとって最良の選択であることを示す。
また、ターゲットエンコーダとその変種が木モデルに適したエンコーダである理由についても説明する。
論文 参考訳(メタデータ) (2024-01-18T02:21:53Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - You Need Multiple Exiting: Dynamic Early Exiting for Accelerating
Unified Vision Language Model [37.24203191658052]
大規模なTransformerモデルは、統一アーキテクチャで様々な下流視覚言語タスクに大幅な改善をもたらす。
性能改善は、モデルサイズが増大し、推論速度が遅くなり、厳格化のコストが増大する。
本稿では,エンコーダとデコーダのレイヤを動的にスキップできる統一視覚言語モデルのための新しい早期終了戦略を提案する。
論文 参考訳(メタデータ) (2022-11-21T02:32:25Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。