論文の概要: Attention to Order: Transformers Discover Phase Transitions via Learnability
- arxiv url: http://arxiv.org/abs/2510.07401v1
- Date: Wed, 08 Oct 2025 18:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.64664
- Title: Attention to Order: Transformers Discover Phase Transitions via Learnability
- Title(参考訳): 秩序への注意: 変圧器は学習性を通して相転移を発見する
- Authors: Şener Özönder,
- Abstract要約: 本稿では,微視的状態から構造を抽出するための注意機構を含む変圧器モデルの能力として定義される,普遍的基準としての学習可能性を紹介する。
モンテカルロが生成した2次元Isingモデルの自己教師付き学習を用いて,次相が学習性の向上に対応することを示す。
以上の結果から, 位相遷移のデータ駆動マーカーとしての学習可能性を確立し, 凝縮物質中の長距離秩序と現代言語モデルにおける構造の出現との深い並列性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phase transitions mark qualitative reorganizations of collective behavior, yet identifying their boundaries remains challenging whenever analytic solutions are absent and conventional simulations fail. Here we introduce learnability as a universal criterion, defined as the ability of a transformer model containing attention mechanism to extract structure from microscopic states. Using self-supervised learning and Monte Carlo generated configurations of the two-dimensional Ising model, we show that ordered phases correspond to enhanced learnability, manifested in both reduced training loss and structured attention patterns, while disordered phases remain resistant to learning. Two unsupervised diagnostics, the sharp jump in training loss and the rise in attention entropy, recover the critical temperature in excellent agreement with the exact value. Our results establish learnability as a data-driven marker of phase transitions and highlight deep parallels between long-range order in condensed matter and the emergence of structure in modern language models.
- Abstract(参考訳): 相転移は集団行動の定性的再編成を示すが、解析解が欠如し従来のシミュレーションが失敗すると境界の特定は困難である。
本稿では,微視的状態から構造を抽出するための注意機構を含む変圧器モデルの能力として定義される,普遍的基準としての学習可能性を紹介する。
自己教師付き学習とモンテカルロが生成した2次元イジングモデルの構成を用いて、秩序な位相は学習性の向上に対応し、トレーニング損失の低減と構造化された注意パターンの両方に現れるが、混乱した位相は学習に抵抗する。
2つの教師なし診断、訓練損失の急激な増加と注意エントロピーの上昇は、正確な値とよく一致して臨界温度を回復する。
以上の結果から, 位相遷移のデータ駆動マーカーとしての学習可能性を確立し, 凝縮物質中の長距離秩序と現代言語モデルにおける構造の出現との深い並列性を強調した。
関連論文リスト
- Continual Learning with Query-Only Attention [0.0]
継続的な学習には、データポイントを繰り返すことなく、データのストリームから学ぶことが含まれる。
本稿では,キーと値を捨てるクエリのみのアテンション機構を提案する。
論文 参考訳(メタデータ) (2025-10-01T00:14:34Z) - Multiple Descents in Deep Learning as a Sequence of Order-Chaos Transitions [4.424479010649862]
LSTMのトレーニング過程において, モデルが過度に訓練された後, テスト損失が上下方向の長いサイクルを経る, 新たな「多重発色現象」が観察された。
モデルの安定性解析により,テスト損失の周期は秩序とカオスの間の相転移過程と密接に関連していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T14:18:22Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Connectivity Shapes Implicit Regularization in Matrix Factorization Models for Matrix Completion [2.8948274245812335]
行列完備化問題の解法として,行列分解の暗黙的正則化について検討する。
我々は、観測データの接続が暗黙のバイアスにおいて重要な役割を果たすことを経験的に発見する。
我々の研究は、行列分解モデルにおけるデータ接続、トレーニングダイナミクス、暗黙の正規化の間の複雑な相互作用を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T15:12:14Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Inferring topological transitions in pattern-forming processes with
self-supervised learning [25.90630151217217]
我々は、ニューラルネットワークを用いて観察されたミクロ構造からプロセスパラメータを予測するために、自己教師型アプローチを用いる。
この予測課題の実行の難しさは, ミクロ構造機構の発見の目標と関係していることを示す。
このアプローチは、目に見えない、あるいは検出しにくい遷移状態を発見し、理解するための、有望な道を開く。
論文 参考訳(メタデータ) (2022-03-19T00:47:50Z) - Learning perturbation sets for robust machine learning [97.6757418136662]
我々は、潜在空間の制約領域上に設定された摂動を定義する条件生成器を用いる。
学習した摂動集合の質を定量的かつ質的に測定する。
我々は、学習した摂動集合を利用して、敵画像の破損や逆光の変動に対して経験的かつ確実に堅牢なモデルを訓練する。
論文 参考訳(メタデータ) (2020-07-16T16:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。