論文の概要: Energy-Entropy Regularization: The True Power of Minimal Looped Transformers
- arxiv url: http://arxiv.org/abs/2601.09588v1
- Date: Wed, 14 Jan 2026 15:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.460805
- Title: Energy-Entropy Regularization: The True Power of Minimal Looped Transformers
- Title(参考訳): エネルギーエントロピー規則化:極小ループ変圧器の真の力
- Authors: Wai-Lun Lam,
- Abstract要約: 最近の研究は、ループトランスフォーマーは標準的なディープアーキテクチャよりも優れた推論能力を持っていることを示唆している。
本稿では,Tsallisエントロピーとハミルトン力学を利用して損失景観の幾何学を変換する新しいトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research suggests that looped Transformers have superior reasoning capabilities compared to standard deep architectures. Current approaches to training single-head looped architectures on benchmark tasks frequently fail or yield suboptimal performance due to a highly non-convex and irregular loss landscape. In these settings, optimization often stagnates in poor local minima and saddle points of the loss landscape, preventing the model from discovering the global minimum point. The internal mechanisms of these single-head looped transformer models remain poorly understood, and training them from scratch remains a significant challenge. In this paper, we propose a novel training framework that leverages Tsallis entropy and Hamiltonian dynamics to transform the geometry of the loss landscape. By treating the parameter updates as a physical flow, we successfully trained a single-head looped Transformer with model dimension $d = 8$ to solve induction head task with input sequence length of 1000 tokens. This success reveals the internal mechanism behind the superior reasoning capability.
- Abstract(参考訳): 最近の研究では、ループトランスフォーマーは標準的なディープアーキテクチャよりも優れた推論能力を有していることが示唆されている。
ベンチマークタスクにおけるシングルヘッドループアーキテクチャのトレーニングに対する現在のアプローチは、非常に非凸で不規則な損失状況のため、しばしば失敗または準最適性能を得る。
これらの設定では、最適化はしばしば、損失ランドスケープの貧弱なローカルなミニマとサドルポイントで停滞し、モデルがグローバルな最小点を見つけるのを妨げている。
これらの単一ヘッドループ型変圧器モデルの内部メカニズムは理解されていないままであり、それらをスクラッチから訓練することは大きな課題である。
本稿では,Tsallisエントロピーとハミルトン力学を利用して損失景観の幾何学を変換する新しいトレーニングフレームワークを提案する。
パラメータ更新を物理フローとして扱うことで,1000トークンの入力シーケンス長で誘導ヘッドタスクを解くために,モデル次元$d = 8$の単一ヘッドループ変換器をトレーニングした。
この成功は、優れた推論能力の背後にある内部メカニズムを明らかにする。
関連論文リスト
- Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium [0.6820746164515952]
閉ループ予測の原理を導入し、自己整合平衡に達するまで、モデルが反復的に潜在表現を洗練することを要求する。
この原理をEquilibrium Transformerとしてインスタンス化し,標準トランス層をEquilibrium Refinement Moduleで拡張する。
バイナリパリティタスクに関する予備実験では、チャレンジシーケンスの平均改善率は+3.28%で、標準トランスフォーマーがランダムなパフォーマンスに近づくと+8.07%に達する。
論文 参考訳(メタデータ) (2025-11-26T20:02:59Z) - Rethinking Vision Transformer Depth via Structural Reparameterization [16.12815682992294]
本稿では,訓練期間中に機能する分岐型構造パラメータ化手法を提案する。
提案手法では, 変圧器ブロック内の並列分岐を利用して, 合理化シングルパスモデルに体系的に統合する。
ViT-Tinyに適用した場合、このフレームワークは、ImageNet-1Kの分類精度を維持しながら、元の12層アーキテクチャを6層、4層、もしくは3層に改善する。
論文 参考訳(メタデータ) (2025-11-24T21:28:55Z) - CSDformer: A Conversion Method for Fully Spike-Driven Transformer [11.852241487470797]
スパイクベースのトランスは、スパイクニューラルネットワークの性能向上を目的とした、新しいアーキテクチャである。
完全スパイク駆動変圧器の新しい変換法であるCSDformerを提案する。
CSDformerは超低レイテンシで高いパフォーマンスを実現し、計算複雑性とトレーニングオーバーヘッドの両方を劇的に削減する。
論文 参考訳(メタデータ) (2025-09-22T07:55:03Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention [14.672072173674039]
高い表現力にもかかわらず,変換器は真の解に収束することができないことを示す。
シャープネス・アウェア・最適化に最適化された場合, ローカル・ミニマの悪さを回避できる浅層軽量変圧器モデルを提案する。
特にSAMformerは現在の最先端メソッドを超え、最大の基盤モデルであるMOIRAIと同等であり、パラメータは大幅に少ない。
論文 参考訳(メタデータ) (2024-02-15T18:55:05Z) - Mitigating Over-smoothing in Transformers via Regularized Nonlocal
Functionals [31.328766460487355]
変圧器の自己保持層は, 平滑化を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。
本稿では, 自己注意からのスムーズな出力トークンと入力トークンとの差分を正規化して, トークンの忠実性を維持するための新たな正規化器を提案する。
我々は,トークン表現の過度な平滑化を低減するために,ベースライントランスフォーマーと最先端手法に対するNeuTRENOの利点を実証的に実証した。
論文 参考訳(メタデータ) (2023-12-01T17:52:47Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。