論文の概要: ThinkingViT: Matryoshka Thinking Vision Transformer for Elastic Inference
- arxiv url: http://arxiv.org/abs/2507.10800v1
- Date: Mon, 14 Jul 2025 20:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.885103
- Title: ThinkingViT: Matryoshka Thinking Vision Transformer for Elastic Inference
- Title(参考訳): ThinkingViT: Matryoshka Thinking Vision Transformer for Elastic Inference
- Authors: Ali Hojjat, Janek Haberer, Soren Pirk, Olaf Landsiedel,
- Abstract要約: ビジョントランスフォーマーは最先端のパフォーマンスを提供するが、その固定予算は異種ハードウェア間のスケーラブルなデプロイメントを妨げている。
インプットの難易度に基づいて推論を動的に調整するために,プログレッシブな思考段階を利用するネスト型ViTアーキテクチャであるThinkingViTを紹介する。
ThinkingViT は同じスループットでネストされたベースラインを最大2.0パーセンテージ(p.p.p.)、ImageNet-1Kで最大2.9パーセンテージで上回る。
- 参考スコア(独自算出の注目度): 0.41942958779358674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers deliver state-of-the-art performance, yet their fixed computational budget prevents scalable deployment across heterogeneous hardware. Recent nested Transformer architectures mitigate this by embedding nested subnetworks within a single model to enable scalable inference. However, these models allocate the same amount of compute to all inputs, regardless of their complexity, which leads to inefficiencies. To address this, we introduce ThinkingViT, a nested ViT architecture that employs progressive thinking stages to dynamically adjust inference computation based on input difficulty. ThinkingViT initiates inference by activating a small subset of the most important attention heads and terminates early if predictions reach sufficient certainty. Otherwise, it activates additional attention heads and re-evaluates the input. At the core of ThinkingViT is our Token Recycling mechanism, which conditions each subsequent inference stage on the embeddings from the previous stage, enabling progressive improvement. Due to its backbone-preserving design, ThinkingViT also serves as a plugin upgrade for vanilla ViT. Experiments show that ThinkingViT surpasses nested baselines by up to 2.0 percentage points (p.p.) in accuracy at the same throughput and by up to 2.9 p.p. at equal GMACs on ImageNet-1K. The source code is available at https://github.com/ds-kiel/ThinkingViT.
- Abstract(参考訳): ビジョントランスフォーマーは最先端のパフォーマンスを提供するが、その固定された計算予算は異種ハードウェア間のスケーラブルなデプロイメントを妨げている。
最近のネストされたTransformerアーキテクチャは、単一のモデルにネストされたサブネットワークを組み込んで、スケーラブルな推論を可能にすることで、これを緩和している。
しかしながら、これらのモデルは、その複雑さにかかわらず、全ての入力に同じ量の計算を割り当て、非効率をもたらす。
そこで我々は,入力難易度に基づいて推論計算を動的に調整するために,プログレッシブな思考段階を利用するネスト型ViTアーキテクチャであるThinkingViTを紹介する。
ThinkingViTは、最も重要なアテンションヘッドの小さなサブセットをアクティベートすることで推論を開始し、予測が十分な確実性に達すると早期に終了する。
そうでなければ、追加のアテンションヘッドを起動し、入力を再評価する。
また,ThinkingViTのコアとなるTokenリサイクリング機構について述べる。
バックボーン保存設計のため、ThinkingViTはバニラViTのプラグインアップグレードとしても機能する。
実験により、ThinkingViTは、ImageNet-1K上で、同じスループットで最大2.0ポイント(p.p.)、同じGMACで最大2.9パーセンテージ(p.p.)を超えることが示されている。
ソースコードはhttps://github.com/ds-kiel/ThinkingViT.comで入手できる。
関連論文リスト
- Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - I-ViT: Integer-only Quantization for Efficient Vision Transformer
Inference [3.067607520161916]
ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンアプリケーションで最先端のパフォーマンスを実現している。
これらのモデルにはかなりのストレージと計算オーバーヘッドがあり、エッジデバイスへのデプロイメントと効率的な推論が困難である。
整数演算とビットシフトによる推論の計算グラフ全体の実行を可能にするために,ViTの整数のみの量子化方式であるI-ViTを提案する。
論文 参考訳(メタデータ) (2022-07-04T13:37:38Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。