論文の概要: bViT: Investigating Single-Block Recurrence in Vision Transformers for Image Recognition
- arxiv url: http://arxiv.org/abs/2605.10661v1
- Date: Mon, 11 May 2026 14:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.907324
- Title: bViT: Investigating Single-Block Recurrence in Vision Transformers for Image Recognition
- Title(参考訳): bViT:画像認識のための視覚変換器における単一クロック残差の調査
- Authors: Michal Byra, Pawel Olszowiec, Grzegorz Stefanski, Grzegorz Gruszczynski, Alberto Presta,
- Abstract要約: 本稿では,1つの変圧器ブロックを繰り返し適用して画像処理を行う単一ブロックリカレントViTであるbViTを紹介する。
ImageNet-1Kでは、12ステップのbViT-Bが、同じトレーニングレシピと計算予算の下で標準のViT-Bに匹敵する精度を達成する。
我々は、リカレント性能が表現幅で向上し、より広いbViTが、より狭い変種よりも標準ViTの性能を回復するのを観察する。
- 参考スコア(独自算出の注目度): 2.1465474237525113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) are built by stacking independently parameterized blocks, but it remains unclear how much of this depth requires layer specific transformations and how much can be realized through recurrent computation. We study this question with bViT, a single-block recurrent ViT in which one transformer block is applied repeatedly to process an image. This architecture preserves the iterative structure of a deep ViT while removing layer specific block parameterization, providing a controlled setting for studying recurrence in vision. On ImageNet-1K, a 12-step bViT-B achieves accuracy comparable to standard ViT-B under the same training recipe and computational budget, while using an order of magnitude fewer parameters. We observe that recurrent performance improves with representation width, with wider bViTs recovering much more of the performance of standard ViTs than narrow variants. We interpret this behavior as implicit depth multiplexing, where a shared block expresses multiple step-dependent computations through the evolving hidden state. Beyond ImageNet classification, bViT transfers competitively to downstream tasks and enables parameter-efficient fine-tuning. Mechanistic analyses of activations, attention and step-specific pruning show that the shared block changes its effective behavior across recurrent steps rather than simply repeating the same computation. Our results suggest that a large fraction of ViT depth can be implemented through recurrent reuse, provided that the representation space is sufficiently wide.
- Abstract(参考訳): 視覚変換器(ViT)は、独立にパラメータ化されたブロックを積み重ねて構築されるが、この深さのどれ程が層固有の変換を必要とするのか、また再帰的な計算によってどのように実現できるかは定かではない。
本稿では,1つの変圧器ブロックを繰り返し適用して画像処理を行う単一ブロックリカレントVITであるbViTを用いて,この問題を考察する。
このアーキテクチャは、層固有のブロックパラメータ化を除去しつつ、深いViTの反復構造を保存し、視覚の再発を研究するための制御された設定を提供する。
ImageNet-1Kでは、12ステップのbViT-Bが、同じトレーニングレシピと計算予算の下で標準のViT-Bに匹敵する精度を達成する。
我々は、リカレント性能が表現幅で向上し、より広いbViTが、より狭い変種よりも標準ViTの性能を回復するのを観察する。
我々はこの振る舞いを暗黙の深度多重化と解釈し、共有ブロックは進化した隠れ状態を通して複数のステップ依存の計算を表現する。
ImageNet分類以外にも、bViTは下流タスクに競合的に転送し、パラメータ効率の良い微調整を可能にする。
アクティベーション、注意、ステップ固有のプルーニングの力学解析により、共有ブロックは同じ計算を繰り返すのではなく、繰り返しステップ間で有効挙動が変化することを示した。
この結果から, 表現空間が十分に広い場合, 再帰的再利用により, ヴァイト深度の大部分を実装できることが示唆された。
関連論文リスト
- High-Fidelity Differential-information Driven Binary Vision Transformer [38.19452875887032]
ビジョントランスフォーマーのバイナリ化(ViT)は、高い計算/ストレージ要求とエッジデバイスデプロイメントの制約の間のトレードオフに対処する、有望なアプローチを提供する。
本稿では,従来の ViT アーキテクチャと計算効率を両立させながら,高情報化が可能な新しいバイナリ ViT である DIDB-ViT を提案する。
論文 参考訳(メタデータ) (2025-07-03T00:59:53Z) - Your ViT is Secretly an Image Segmentation Model [50.71238842539735]
Vision Transformer (ViT) は、様々なコンピュータビジョンタスクにおいて、顕著なパフォーマンスとスケーラビリティを示している。
タスク固有のコンポーネントによって導入された帰納バイアスは、代わりにViT自身で学習できることを示す。
画像セグメンテーションを行うためにプレーンな ViT アーキテクチャを再利用した Mask Transformer (EoMT) を導入する。
論文 参考訳(メタデータ) (2025-03-24T19:56:02Z) - LPViT: Low-Power Semi-structured Pruning for Vision Transformers [43.126752035656196]
画像解析タスクのための畳み込みニューラルネットワークに代わる有望な代替手段として、ビジョントランスフォーマーが登場した。
ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。
我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-07-02T08:58:19Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [89.79139531731637]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高次アンダーライン精度,高速アンダーライン推論速度,下流タスクに対する好適なアンダーライン変換性を両立させたViTの合同アンダーライン圧縮法を提案する。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。