論文の概要: Linearizing Vision Transformer with Test-Time Training
- arxiv url: http://arxiv.org/abs/2605.02772v1
- Date: Mon, 04 May 2026 16:16:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.40012
- Title: Linearizing Vision Transformer with Test-Time Training
- Title(参考訳): テスト時間トレーニングによるリニアライズ・ビジョン・トランス
- Authors: Yining Li, Dongchen Han, Zeyu Liu, Hanyi Wang, Yulin Wang, Gao Huang,
- Abstract要約: 事前訓練されたトランスフォーマーからウェイトを継承することは、魅力的なショートカットを提供するが、ソフトマックスと線形アテンションの基本的な表現的ギャップは、効果的なウェイト転送を妨げている。
テスト時間トレーニング(TTT)は2層動的定式化がSoftmaxの注意と構造的に一致している線形複雑アーキテクチャである。
安定拡散3.5を線形化して、SD3.5-T$5$(Transformer to Test Time Training)を導入することで、我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 54.52616866374482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While linear-complexity attention mechanisms offer a promising alternative to Softmax attention for overcoming the quadratic bottleneck, training such models from scratch remains prohibitively expensive. Inheriting weights from pretrained Transformers provides an appealing shortcut, yet the fundamental representational gap between Softmax and linear attention prevents effective weight transfer. In this work, we address this conversion challenge from two perspectives: architectural alignment and representational alignment. We identify Test-Time Training (TTT) as a linear-complexity architecture whose two-layer dynamic formulation is structurally aligned with Softmax attention, enabling direct inheritance of pretrained attention weights. To further align representational properties, including key shift-invariance and locality, we introduce key instance normalization and a lightweight locality enhancement module. We validate our approach by linearizing Stable Diffusion 3.5 and introduce SD3.5-T$^5$ (Transformer To Test Time Training). With only 1 hour of fine-tuning on 4$\times$H20 GPUs, SD3.5-T$^5$ achieves comparable text-to-image quality to the fine-tuned Softmax model, while accelerating inference by 1.32$\times$ and 1.47$\times$ at 1K and 2K resolutions.
- Abstract(参考訳): 線形複雑度注意機構は、二次的ボトルネックを克服するためにソフトマックスの注意の代替として有望な手段を提供するが、そのようなモデルをスクラッチからトレーニングすることは違法に高価である。
事前訓練されたトランスフォーマーからウェイトを継承することは、魅力的なショートカットを提供するが、ソフトマックスと線形アテンションの基本的な表現的ギャップは、効果的なウェイト転送を妨げている。
本研究では, この変換課題を, アーキテクチャ的アライメントと表現的アライメントという2つの観点から解決する。
テスト時間トレーニング(TTT)は,2層動的定式化がSoftmaxの注意と構造的に整合している線形複雑度アーキテクチャであり,事前学習した注意重みの直接継承を可能にする。
キーシフト不変性と局所性を含む表現特性をさらに整合させるため、キーインスタンス正規化と軽量な局所性拡張モジュールを導入する。
安定拡散3.5の線形化とSD3.5-T$^5$(Transformer to Test Time Training)の導入により,本手法の有効性を検証した。
4$\times$H20 GPU上で1時間の微調整しか行わず、SD3.5-T$^5$は細調整されたSoftmaxモデルに匹敵するテキスト・ツー・イメージの品質を達成し、推論は1Kと2Kで1.32$\times$と1.47$\times$に加速する。
関連論文リスト
- Nexusformer: Nonlinear Attention Expansion for Stable and Inheritable Transformer Scaling [9.458812631271009]
線形$Q/K/VプロジェクションをNexus-Rank層に置き換えるNexusformerを導入する。
新しい容量は、事前訓練された知識を保持するゼロdブロックを介して2つの軸に沿って注入することができる。
言語モデリングと推論の実験は、NexusformerがTokenformerのパープレキシティベンチマークと一致していることを示している。
論文 参考訳(メタデータ) (2026-04-21T06:54:16Z) - Anisotropic Permeability Tensor Prediction from Porous Media Microstructure via Physics-Informed Progressive Transfer Learning with Hybrid CNN-Transformer [0.0]
細孔スケールの微細構造画像からの透水性テンソルの予測は地下流れのモデリングには不可欠であるが、直接数値シミュレーションではサンプルあたりの時間を要する。
MaxViTハイブリッドCNN-Transformerアーキテクチャと、プログレッシブトランスファー学習と微分可能な物理的制約を組み合わせることで、このボトルネックを解決する物理インフォームドディープラーニングフレームワークが提示される。
論文 参考訳(メタデータ) (2026-03-18T09:41:01Z) - Scalable Generative Game Engine: Breaking the Resolution Wall via Hardware-Algorithm Co-Design [17.941176878609337]
我々は、スケーラブルなTextitHardware-Algorithm共設計フレームワークを導入することにより、生成モデルと高分解能ニューラルネットワークのギャップを埋める。
このシステムは, それぞれ26.4 FPSと48.3 FPSの流体を供給し, 有効遅延は2.7msである。
論文 参考訳(メタデータ) (2026-01-31T08:52:51Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - Transform Trained Transformer: Accelerating Naive 4K Video Generation Over 10$\times$ [91.61519033897424]
ネイティブ4Kビデオ生成は、解像度が増大するにつれて、フルアテンションの二次的な計算爆発のため、依然として重要な課題である。
本稿では,前処理ロジックを最適化することで計算要求を大幅に削減する,$textbfT3-Video$と呼ばれる新しいトランスフォーマー補正戦略を提案する。
4K-VBenchの結果は、$textbfT3-Video$が既存のアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-15T16:25:39Z) - Transformer Based Linear Attention with Optimized GPU Kernel Implementation [10.235738752130803]
線形注意(LA)機構はO(ND2)$の線形時間複雑性を提供し、通常の注意に匹敵する精度を示している。
本稿では,高度に最適化された実装とともに,LAの前方・後方通過のための新しい手法を提案する。
我々は、14億のパラメータ言語モデルをトレーニングすることにより、これらの改善を単層とエンドツーエンドの両方の設定で検証する。
論文 参考訳(メタデータ) (2025-10-24T18:32:20Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - Transformer Quality in Linear Time [95.2692237947444]
本稿では,トランスフォーマーの設計選択を再考し,長いシーケンスを扱う際の弱点に対処する手法を提案する。
まず,低品質な単一ヘッドアテンションを最小限に設定できる,ゲートアテンションユニットというシンプルなレイヤを提案する。
そこで我々は,この新層を補完する線形近似法を提案する。
論文 参考訳(メタデータ) (2022-02-21T18:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。