論文の概要: Single-Nodal Spontaneous Symmetry Breaking in NLP Models
- arxiv url: http://arxiv.org/abs/2601.20582v1
- Date: Wed, 28 Jan 2026 13:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.94027
- Title: Single-Nodal Spontaneous Symmetry Breaking in NLP Models
- Title(参考訳): NLPモデルにおける単一ノイズ自発対称性の破れ
- Authors: Shalom Rosner, Ronit D. Gross, Ella Koresh, Ido Kanter,
- Abstract要約: 自然言語処理(NLP)モデルにおける自発的対称性の破れの出現を実証する。
この現象は個々のアテンションヘッドのレベルで発生し、ノードの小さなサブセットにスケールダウンされる。
結果は、Wikipediaデータセットで事前トレーニングされ、FewRel分類タスクで微調整されたBERT-6アーキテクチャを使って実証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spontaneous symmetry breaking in statistical mechanics primarily occurs during phase transitions at the thermodynamic limit where the Hamiltonian preserves inversion symmetry, yet the low-temperature free energy exhibits reduced symmetry. Herein, we demonstrate the emergence of spontaneous symmetry breaking in natural language processing (NLP) models during both pre-training and fine-tuning, even under deterministic dynamics and within a finite training architecture. This phenomenon occurs at the level of individual attention heads and is scaled-down to its small subset of nodes and also valid at a single-nodal level, where nodes acquire the capacity to learn a limited set of tokens after pre-training or labels after fine-tuning for a specific classification task. As the number of nodes increases, a crossover in learning ability occurs, governed by the tradeoff between a decrease following random-guess among increased possible outputs, and enhancement following nodal cooperation, which exceeds the sum of individual nodal capabilities. In contrast to spin-glass systems, where a microscopic state of frozen spins cannot be directly linked to the free-energy minimization goal, each nodal function in this framework contributes explicitly to the global network task and can be upper-bounded using convex hull analysis. Results are demonstrated using BERT-6 architecture pre-trained on Wikipedia dataset and fine-tuned on the FewRel classification task.
- Abstract(参考訳): 統計力学における自発的対称性の破れは、主にハミルトニアンが反転対称性を保存する熱力学極限における相転移の間に起こるが、低温自由エネルギーは減少対称性を示す。
本稿では,自然言語処理(NLP)モデルにおける自発対称性の出現を,事前学習と微調整の両方において,決定論的力学の下でも,有限の訓練アーキテクチャ内でも示す。
この現象は個々のアテンションヘッドのレベルで発生し、ノードの小さなサブセットまでスケールダウンされ、ノードが特定の分類タスクの微調整後の事前訓練やラベルの後に限定されたトークンセットを学ぶ能力を得る単一ノイズレベルでも有効である。
ノード数が増加するにつれて、学習能力のクロスオーバーが起こり、可能出力の増加によるランダムゲスの減少と、個々の結節能力の総和を超える結節協調の強化とのトレードオフによって支配される。
凍結したスピンの顕微鏡状態が自由エネルギーの最小化目標に直接リンクできないスピングラスシステムとは対照的に、このフレームワークの各結節関数は、グローバルネットワークタスクに明示的に寄与し、凸殻解析を用いて上界化することができる。
結果は、Wikipediaデータセットで事前トレーニングされ、FewRel分類タスクで微調整されたBERT-6アーキテクチャを使って実証される。
関連論文リスト
- Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。
その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。
テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文 参考訳(メタデータ) (2026-01-05T08:04:33Z) - Defect Bootstrap: Tight Ground State Bounds in Spontaneous Symmetry Breaking Phases [0.0]
ブートストラップ法は、熱力学の限界において、局所可観測物上の厳密な二辺境界を可能にした。
これらの境界は必然的に対称性の破れた位相において緩くなり、そこでは局所的な制約は長距離秩序を捉えるのに不十分である。
補助的な$textitdefectモデルにシステムを埋め込むことで、この制限を解決するために、$textitdefect bootstrap$フレームワークを導入します。
以上の結果から,量子多体系におけるブートストラップ手法のパワーは,物理的に動機付けられた制約セットによって劇的に向上することが示された。
論文 参考訳(メタデータ) (2025-11-25T21:17:54Z) - PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction [87.33016661440202]
自動回帰ポイントクラウド生成は、長い間、拡散ベースの品質アプローチに遅れを取ってきた。
低解像度で大域的な形状を保った粗大な生成フレームワークであるPointNSPを提案する。
ShapeNetの実験によると、PointNSPは自己回帰パラダイムの中で初めて、最先端(SOTA)生成品質を確立している。
論文 参考訳(メタデータ) (2025-10-07T06:31:02Z) - Ordinal Label-Distribution Learning with Constrained Asymmetric Priors for Imbalanced Retinal Grading [9.147336466586017]
糖尿病網膜症は、本質的には順序性で長い尾を持つ。
制約付き非対称先行ワッサースタインオートエンコーダ(CAP-WAE)を提案する。
CAP-WAEは、最先端の4重み付きカッパ、精度、マクロF1を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-30T11:58:49Z) - Neural Collapse in Cumulative Link Models for Ordinal Regression: An Analysis with Unconstrained Feature Model [5.339955242953934]
我々は、通常神経崩壊(ONC)と呼ばれる現象が実際に出現し、以下の3つの特性によって特徴付けられることを示した。
特に、ゼロ正則化極限では、潜伏変数としきい値の間に非常に局所的で単純な幾何学的関係が現れる。
論文 参考訳(メタデータ) (2025-06-06T06:57:02Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Message-Passing Neural Quantum States for the Homogeneous Electron Gas [41.94295877935867]
連続空間における強相互作用フェルミオンをシミュレートするメッセージパッシング・ニューラルネットワークに基づく波動関数Ansatzを導入する。
等質電子ガスの基底状態を3次元でシミュレーションすることにより,その精度を実証する。
論文 参考訳(メタデータ) (2023-05-12T04:12:04Z) - Dynamical singularity of the rate function for quench dynamics in
finite-size quantum systems [1.2514666672776884]
ツイスト境界条件下での有限サイズ系の速度関数の動的特異点の実現について検討する。
ロシミットエコーの正確な零点は、基礎となる平衡相転移点を横切る後処理パラメータが常に達成可能であることを示す。
論文 参考訳(メタデータ) (2022-11-06T14:35:57Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。