論文の概要: Mapping the Edge of Chaos: Fractal-Like Boundaries in The Trainability of Decoder-Only Transformer Models
- arxiv url: http://arxiv.org/abs/2501.04286v1
- Date: Wed, 08 Jan 2025 05:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:40.448375
- Title: Mapping the Edge of Chaos: Fractal-Like Boundaries in The Trainability of Decoder-Only Transformer Models
- Title(参考訳): カオスのエッジのマッピング:デコーダオンリー変圧器モデルの訓練性におけるフラクタル的境界
- Authors: Bahman Torkamandi,
- Abstract要約: ミニチュアニューラルネットワークによる最近の証拠は、これらの結果を分離する境界がフラクタル特性を示すことを示唆している。
本研究は、より一貫した収束尺度を用いて、中規模デコーダのみの変圧器アーキテクチャに拡張する。
その結果、訓練性フロンティアは単純なしきい値ではなく、複数のスケールで自己相似で一見ランダムな構造を形成することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In the realm of fractal geometry, intricate structures emerge from simple iterative processes that partition parameter spaces into regions of stability and instability. Likewise, training large language models involves iteratively applying update functions, such as Adam, where even slight hyperparameter adjustments can shift the training process from convergence to divergence. Recent evidence from miniature neural networks suggests that the boundary separating these outcomes displays fractal characteristics [1]. Building on these insights, this study extends them to medium-sized, decoder-only transformer architectures by employing a more consistent convergence measure and examining the learning rate hyperparameter landscape for attention and fully connected layers. The results show that the trainability frontier is not a simple threshold; rather, it forms a self-similar yet seemingly random structure at multiple scales, with statistically consistent and repeating patterns. Within this landscape, a region of stable convergence is surrounded by a complex chaotic border, illustrating the sensitive nature of the underlying training dynamics.
- Abstract(参考訳): フラクタル幾何学の領域では、複雑な構造はパラメータ空間を安定性と不安定性の領域に分割する単純な反復過程から生じる。
同様に、大規模な言語モデルのトレーニングには、Adamのような更新関数を反復的に適用する必要がある。
ミニチュアニューラルネットワークによる最近の証拠は、これらの結果を分離する境界がフラクタル特性 [1] を示すことを示唆している。
これらの知見に基づいて、より一貫した収束度尺度を用いて、注目層と完全に連結された層に対して学習速度ハイパーパラメータの景観を調べることにより、中規模のデコーダのみのトランスフォーマーアーキテクチャに拡張する。
その結果、訓練性フロンティアは単純なしきい値ではなく、統計的に一貫した反復パターンを持つ、複数のスケールで自己相似で一見ランダムな構造を形成することが明らかとなった。
この風景の中では、安定した収束の領域は複雑なカオス境界に囲まれており、基礎となる訓練力学の繊細な性質を描写している。
関連論文リスト
- Isomorphic Pruning for Vision Models [56.286064975443026]
構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。
Isomorphic Pruningは、ネットワークアーキテクチャの範囲で有効性を示すシンプルなアプローチである。
論文 参考訳(メタデータ) (2024-07-05T16:14:53Z) - The boundary of neural network trainability is fractal [23.4886323538853]
いくつかのフラクタルは関数を反復することによって計算される。
ニューラルネットワークのトレーニングは、収束または分岐行動をもたらす可能性がある。
テストされたすべての構成において、この境界は10年以上にわたるスケールのフラクタルであることが分かりました。
論文 参考訳(メタデータ) (2024-02-09T04:46:48Z) - Bayesian Semi-structured Subspace Inference [0.0]
半構造回帰モデルは、解釈可能な構造と複雑な非構造的特徴効果の合同モデリングを可能にする。
部分空間推論を用いた半構造化回帰モデルに対するベイズ近似を提案する。
提案手法は,シミュレーションおよび実世界のデータセット間での競合予測性能を示す。
論文 参考訳(メタデータ) (2024-01-23T18:15:58Z) - Bayesian Unsupervised Disentanglement of Anatomy and Geometry for Deep Groupwise Image Registration [50.62725807357586]
本稿では,マルチモーダル群画像登録のための一般ベイズ学習フレームワークを提案する。
本稿では,潜在変数の推論手順を実現するために,新しい階層的変分自動符号化アーキテクチャを提案する。
心臓、脳、腹部の医療画像から4つの異なるデータセットを含む,提案された枠組みを検証する実験を行った。
論文 参考訳(メタデータ) (2024-01-04T08:46:39Z) - Exploiting hidden structures in non-convex games for convergence to Nash
equilibrium [62.88214569402201]
現代の機械学習アプリケーションは、非協調的なナッシュリリアとして定式化することができる。
決定論的環境と決定論的環境の両方に明確な収束保証を提供する。
論文 参考訳(メタデータ) (2023-12-27T15:21:25Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。
物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。
本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文 参考訳(メタデータ) (2023-04-25T15:53:45Z) - Deep Networks on Toroids: Removing Symmetries Reveals the Structure of
Flat Regions in the Landscape Geometry [3.712728573432119]
我々は、すべての対称性を除去し、トロイダルトポロジーをもたらす標準化されたパラメータ化を開発する。
最小化器の平坦性とそれらの接続する測地線経路の有意義な概念を導出する。
また、勾配勾配の変種によって発見された最小化器は、ゼロエラー経路と1つの曲がり角で接続可能であることも見いだした。
論文 参考訳(メタデータ) (2022-02-07T09:57:54Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - ProAlignNet : Unsupervised Learning for Progressively Aligning Noisy
Contours [12.791313859673187]
ProAlignNetは、輪郭形状間の大規模なミスアライメントと複雑な変換を説明できる。
近接感度および局所形状依存類似度測定値の上界から導出される新しい損失関数を用いて学習する。
実世界の2つの応用において、提案したモデルは最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2020-05-23T14:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。