論文の概要: Generative Criticality in Large Language Model Temperature Scaling
- arxiv url: http://arxiv.org/abs/2606.06238v1
- Date: Thu, 04 Jun 2026 14:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.865212
- Title: Generative Criticality in Large Language Model Temperature Scaling
- Title(参考訳): 大規模言語モデル温度スケーリングにおける生成的臨界性
- Authors: Huajian Ruan, Jinyang Li, Xingyu Guo, Lingxiao Wang,
- Abstract要約: 大規模言語モデル(LLM)によって生成されるテキストの統計的フィールドフレームワークを提案する。
接続された2点相関器からの感受性と、アンサンブル平均埋め込み場からの順序パラメータを定義する。
パワーローのようなスケーリング,順序パラメータの同時変化,T_c$以下の1つの意味的方向への崩壊といった特徴を持つ$T_c$近傍の鋭い感受性ピークを観測した。
- 参考スコア(独自算出の注目度): 3.472734054649125
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a statistical-field framework for text generated by large language models (LLMs), treating token embeddings as continuous spin variables on a one-dimensional chain. Defining a susceptibility from the connected two-point correlator and an order parameter from the ensemble-averaged embedding field, we vary the \texttt{softmax} temperature $T$ and observe a sharp susceptibility peak near a characteristic $T_c$ with power-law-like scaling, a concurrent rapid change in the order parameter, and a collapse onto a single semantic direction below $T_c$. The intrinsic dimension estimated by the two nearest neighbor (TwoNN) method independently corroborates these findings, reaching a minimum near $T_c$. Results are robust across model scales (Qwen3: 0.6B--32B) and prompt categories. While the phenomenology closely resembles a continuous phase transition, the non-equilibrium nature of autoregressive generation warrants further investigation. Our framework provides quantitative tools for probing the collective statistical structure of LLM outputs and suggests connections between decoding strategies and critical phenomena.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) が生成するテキストの統計フィールドフレームワークを提案し,トークン埋め込みを1次元鎖上の連続スピン変数として扱う。
接続された2点相関器からの感受性と、アンサンブル平均埋め込み場からの順序パラメータを定義し、その温度を$T$に変更し、パワーロッドなスケーリングを持つ特性である$T_c$の近傍で鋭い感受性ピークを観測し、オーダーパラメータの同時的急激な変化と、$T_c$の下の単一の意味方向への崩壊を観測する。
隣り合う2つのTwoNN法で推定される固有次元は, それぞれ独立に相関し, 最低でもT_c$に近づいた。
結果は、モデルスケール(Qwen3: 0.6B--32B)とプロンプトカテゴリで堅牢である。
現象論は連続相転移とよく似ているが、自己回帰生成の非平衡性はさらなる研究を保証している。
本フレームワークは,LCM出力の集合的統計構造を定量化するためのツールを提供し,復号戦略と臨界現象の関連性を提案する。
関連論文リスト
- Collective Alignment in LLM Multi-Agent Systems: Disentangling Bias from Cooperation via Statistical Physics [0.0]
そこで,本研究では,本態性バイアスから社会的整合性を解き,臨界指数を計算し,マルチエージェントシステムの集合的挙動と相転移を探索するモデルに依存しない統計的物理法を提案する。
集合的アライメントは、協調的な隣り合う結合よりも本質的なバイアスによって支配され、真の相転移の代わりに場駆動のクロスオーバーを生成する。
論文 参考訳(メタデータ) (2026-05-11T13:13:44Z) - Self-Attention as a Covariance Readout: A Unified View of In-Context Learning and Repetition [8.250374560598495]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と反復生成の2つの振る舞いを示す。
どちらのモデルも、コンテキストを人口統計と捨てられたトークンレベルの詳細に要約したかのように振る舞う。
この要約と「忘れる」は、注意機構自体から導き出すことができ、肯定的に答えられるかどうかを問う。
論文 参考訳(メタデータ) (2026-05-11T12:33:15Z) - Towards a Data-Parameter Correspondence for LLMs: A Preliminary Discussion [10.237445112597095]
大規模な言語モデルの最適化は、歴史的に孤立したデータ中心のパラダイムとモデル中心のパラダイムに二分されてきた。
本稿では,同じ幾何学的構造の二重表現として,これらが異なっていたことを明らかにするために,統一的な音声データ-パラメータ対応を確立した。
論文 参考訳(メタデータ) (2026-04-19T11:18:03Z) - Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - InfiGFusion: Graph-on-Logits Distillation via Efficient Gromov-Wasserstein for Model Fusion [36.27704594180795]
InfiGFusionは、新しいtextitGraph-on-Logits Distillation (GLD)損失を持つ構造認識融合フレームワークである。
GLDは核融合品質と安定性を継続的に改善することを示す。
複雑な推論タスクでは、多段階算術において+35.6、SFT上の因果判定において+37.06が改良された。
論文 参考訳(メタデータ) (2025-05-20T03:55:35Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。