Fugu-MT 論文翻訳(概要): Evolving Layer-Specific Scalar Functions for Hardware-Aware Transformer Adaptation

論文の概要: Evolving Layer-Specific Scalar Functions for Hardware-Aware Transformer Adaptation

arxiv url: http://arxiv.org/abs/2605.14047v1
Date: Wed, 13 May 2026 19:08:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-15 21:45:34.471653
Title: Evolving Layer-Specific Scalar Functions for Hardware-Aware Transformer Adaptation
Title（参考訳）: ハードウェア対応変圧器適応のための層特異スカラー関数の進化
Authors: Kieran Carrigg, Sigur de Vries, Amirhossein Sadough, Marcel van Gerven,
Abstract要約: ビジョントランスフォーマー(ViT)は、挑戦的なビジョンタスクにおいて最先端のパフォーマンスを達成するが、エッジデバイスへのデプロイメントは妨げられている。最近の手法では、正規化層をハードウェアフレンドリーなスカラー近似に置き換えることでこれを回避しようとしている。本稿では、遺伝的プログラミング(GP)を利用して、異種層特異的スカラー関数を進化させる高効率なフレームワークを提案する。
参考スコア（独自算出の注目度）: 0.5266471639657487
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Vision Transformers (ViTs) achieve state-of-the-art performance on challenging vision tasks, but their deployment on edge devices is severely hindered by the computational complexity and global reduction bottleneck imposed by layer normalization. Recent methods attempt to bypass this by replacing normalization layers with hardware-friendly scalar approximations. However, these homogeneous replacements do not optimally fit to all layers' behaviour and rely on expensive model retraining. In this work, we propose a highly efficient, hardware-aware framework that utilizes genetic programming (GP) to evolve heterogeneous, layer-specific scalar functions directly from pre-trained weights. Coupled with a novel post-training re-alignment strategy, our approach eliminates the need to retrain models from scratch entirely. Our evolved expressions accurately approximate the target normalization behaviours, capturing $91.6\%$ of the variance ($R^2$) compared to only $70.2\%$ for homogeneous baselines, allowing our modified architecture to recover $84.25\%$ Top-1 ImageNet-1K accuracy in only 20 epochs. By preserving this performance while eliminating the global reduction bottleneck, our approach establishes a highly favourable trade-off between arithmetic complexity and off-chip memory traffic, removing a primary barrier to the efficient deployment of ViTs on edge accelerators.
Abstract（参考訳）: ビジョントランスフォーマー(ViT)は、挑戦的なビジョンタスクにおいて最先端のパフォーマンスを達成するが、エッジデバイスへの展開は、階層正規化によって課される計算複雑性とグローバルリダクションのボトルネックによって著しく妨げられる。最近の手法では、正規化層をハードウェアフレンドリーなスカラー近似に置き換えることでこれを回避しようとしている。しかし、これらの均質な置換は全ての層の振る舞いに最適に適合せず、高価なモデルの再訓練に依存している。本研究では,遺伝的プログラミング(GP)を利用して,事前学習した重みからヘテロジニアスカラー関数を直接進化させる,高効率なハードウェア対応フレームワークを提案する。トレーニング後の新たなアライメント戦略と組み合わせることで,モデルを完全にゼロから再トレーニングする必要がなくなる。我々の進化した式は、ターゲットの正規化挙動を正確に近似し、分散の91.6\%$(R^2$)を、均質なベースラインに対してわずか70.2\%$で、修正されたアーキテクチャは、わずか20時間で84.25\%$ Top-1 ImageNet-1Kの精度を回復できる。この性能を維持しながら,グローバルな削減ボトルネックを解消することにより,演算複雑性とオフチップメモリトラフィックのトレードオフを極めて良好に実現し,エッジアクセラレータへのViTの効率的なデプロイにおける主要な障壁を排除した。

関連論文リスト

AdaHOP: Fast and Accurate Low-Precision Training via Outlier-Pattern-Aware Rotation [11.070767185562817]
低い精度のトレーニングでは、アダマール変換を用いて外れ値を抑制し、量子化誤差を軽減する。従来の方法では、テンソルにまたがる外部構造にかなりの変化があるにもかかわらず、固定変換を均一に適用していた。我々は,この戦略が根本的に欠陥があることを示し,AdaHOPを提案する。
論文参考訳（メタデータ） (2026-04-02T21:24:15Z)
Hybrid Dual-Path Linear Transformations for Efficient Transformer Architectures [0.0]
本稿では,アフィン変換を2つのトポロジカルな経路に分解するHybrid Dual-Path Linear (HDPL)演算子について紹介する。 FineWeb-Eduデータセットの実験では、HDPLアーキテクチャが標準のLlamaスタイルのベースラインより優れていることが示されている。本稿では,トランスフォーマーのバックボーン内での確率的潜在空間の明示的な物質化が,重要な建築的余裕として果たす役割について論じる。
論文参考訳（メタデータ） (2026-02-05T20:16:10Z)
RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs [5.782015253162346]
残留バイナライゼーションは、バイナリ層を積み重ねることで、マットルフリーな推論を可能にする。本稿では,残差階層をアルゴリズム的に強制することでコダプタ化を解決する新しい量子化フレームワークであるRaBiTを提案する。 RaBiTは最先端のパフォーマンスを実現し、ハードウェア集約型ベクトル量子化(VQ)の手法と競合する。
論文参考訳（メタデータ） (2026-02-05T06:41:11Z)
A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文参考訳（メタデータ） (2026-01-24T02:12:39Z)
Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文参考訳（メタデータ） (2025-11-14T06:27:58Z)
EcoSpa: Efficient Transformer Training with Coupled Sparsity [79.5008521101473]
トランスフォーマーは現代のAIのバックボーンとなっているが、その高い計算要求は重要なシステム課題を引き起こしている。 EcoSpaは、結合した重み行列対を共同で評価し、スパース化する効率的な構造的スパース訓練法である。
論文参考訳（メタデータ） (2025-11-09T11:23:43Z)
Elastic ViTs from Pretrained Models without Retraining [74.5386166956142]
ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
論文参考訳（メタデータ） (2025-10-20T16:15:03Z)
Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers [18.469378618426294]
本稿では,ハミング注意蒸留(HAD)について紹介する。これは注意機構のキーとクエリをバイナライズして,大幅な効率向上を実現するフレームワークである。我々は,HADをカスタムハードウェアシミュレーションに実装し,標準的なハードウェア実装と比較して優れた性能特性を示す。
論文参考訳（メタデータ） (2025-02-03T19:24:01Z)
Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文参考訳（メタデータ） (2022-02-02T11:58:56Z)
Deriving Differential Target Propagation from Iterating Approximate Inverses [91.3755431537592]
本稿では,各層が学習した逆数に依存するターゲット伝搬の特定の形態が,ガウス-ニュートン勾配に基づく近似最適化に対応する更新規則を導出することを示す。そこで我々は,各層における局所的自動エンコーダに基づく反復計算について検討し,より正確な目標伝搬のインバージョンを実現する。
論文参考訳（メタデータ） (2020-07-29T22:34:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。