論文の概要: AdaPerceiver: Transformers with Adaptive Width, Depth, and Tokens
- arxiv url: http://arxiv.org/abs/2511.18105v1
- Date: Sat, 22 Nov 2025 16:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.631999
- Title: AdaPerceiver: Transformers with Adaptive Width, Depth, and Tokens
- Title(参考訳): AdaPerceiver: 適応幅、深さ、トークンを持つトランスフォーマー
- Authors: Purvish Jajal, Nick John Eliopoulos, Benjamin Shiue-Hal Chou, George K. Thiruvathukal, Yung-Hsiang Lu, James C. Davis,
- Abstract要約: AdaPerceiverは,1つのモデル内での深さ,幅,トークンを統一した適応性を備えた最初のトランスフォーマーアーキテクチャである。
AdaPerceiverは85.4%の精度で、FlexiViT-Lよりも36%高いスループットを実現している。
- 参考スコア(独自算出の注目度): 6.989655731780402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern transformer architectures achieve remarkable performance across tasks and domains but remain rigid in how they allocate computation at inference time. Real-world deployment often requires models to adapt to diverse hardware and latency constraints, yet most approaches to dynamic computation focus on a single axis -- such as reducing the number of tokens. We present a novel capability: AdaPerceiver, the first transformer architecture with unified adaptivity across depth, width, and tokens within a single model. We propose an architecture that supports adaptivity along these axes. We couple this with an efficient joint training regime that ensures the model maintains performance across its various configurations. We evaluate AdaPerceiver on image classification, semantic segmentation, and depth estimation tasks. On image classification, AdaPerceiver expands the accuracy-throughput Pareto front. It achieves 85.4% accuracy while yielding 36% higher throughput than FlexiViT-L. On dense prediction, AdaPerceiver matches ViT-H/14 while having $\sim$26x fewer encoder FLOPs (floating-point operations) on semantic segmentation and depth estimation. Finally, we show how AdaPerceiver equipped with a policy can maintain ImageNet1K accuracy ($\pm0.1$ percentage points) while reducing FLOPs by $24-33$%.
- Abstract(参考訳): 現代のトランスフォーマーアーキテクチャはタスクやドメイン間で顕著なパフォーマンスを達成するが、推論時にどのように計算を割り当てるかは厳密である。
現実のデプロイメントでは、さまざまなハードウェアやレイテンシの制約に適応するためにモデルを必要とすることが多いが、動的計算のほとんどのアプローチは、トークンの数を減らすなど、単一の軸に集中している。
AdaPerceiverは、単一のモデル内での深さ、幅、トークンを統一した適応性を備えた最初のトランスフォーマーアーキテクチャです。
これらの軸に沿って適応性をサポートするアーキテクチャを提案する。
これを、モデルが様々な構成で性能を維持するための効率的な共同トレーニングシステムと組み合わせる。
画像分類,セマンティックセグメンテーション,深度推定タスクにおけるAdaPerceiverの評価を行った。
画像分類では、AdaPerceiverは精度・スループットのParetoフロントを拡張する。
精度は85.4%、スループットはFlexiViT-Lより36%高い。
密度予測では、AdaPerceiverはViT-H/14と一致し、セマンティックセグメンテーションと深さ推定で$\sim$26x少ないエンコーダFLOP(フローティングポイント演算)を持つ。
最後に、ポリシを備えたAdaPerceiverがImageNet1Kの精度(\pm0.1$%)を維持しながら、FLOPを24~33$%削減できることを示します。
関連論文リスト
- ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - SPViT: Enabling Faster Vision Transformers via Soft Token Pruning [38.10083471492964]
ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。
平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。
我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-27T20:15:25Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。