論文の概要: Momentum Point-Perplexity Mechanics in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.08492v1
- Date: Mon, 11 Aug 2025 21:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.240913
- Title: Momentum Point-Perplexity Mechanics in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるモーメント・ポイント・パープレキシティ・メカニクス
- Authors: Lorenzo Tomaz, Judd Rosenblatt, Thomas Berry Jones, Diogo Schwerz de Lucena,
- Abstract要約: 我々は、大規模言語モデルの内部隠れ状態が、推論中にトークンからトークンへどのように変化するかを研究するために、物理学に基づくアプローチをとる。
隠れ状態の変化率と、物理におけるエネルギーに類似したモデルが持つ次の確実性を組み合わせた量は、ほぼ一定である。
我々は、ターゲットトークンを優先するために最小限の方法で隠れた状態を摂動するジャコビアンステアリングと呼ばれる制御手法を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We take a physics-based approach to studying how the internal hidden states of large language models change from token to token during inference. Across 20 open-source transformer models (135M-3B parameters), we find that a quantity combining the rate of change in hidden states and the model's next-token certainty, analogous to energy in physics, remains nearly constant. Random-weight models conserve this "energy" more tightly than pre-trained ones, while training shifts models into a faster, more decisive regime with greater variability. Using this "log-Lagrangian" view, we derive a control method called Jacobian steering, which perturbs hidden states in the minimal way needed to favor a target token. This approach maintained near-constant energy in two tested models and produced continuations rated higher in semantic quality than the models' natural outputs. Viewing transformers through this mechanics lens offers a principled basis for interpretability, anomaly detection, and low-risk steering. This could help make powerful models more predictable and aligned with human intent.
- Abstract(参考訳): 我々は、大規模言語モデルの内部隠れ状態が、推論中にトークンからトークンへどのように変化するかを研究するために、物理学に基づくアプローチをとる。
20個のオープンソーストランスモデル (135M-3B パラメータ) にまたがって、隠れ状態の変化率と、物理におけるエネルギーに類似した次の整合性を組み合わせた量は、ほぼ一定である。
ランダムウェイトモデルは、事前訓練されたモデルよりも「エネルギー」を強く保存する一方、トレーニングはモデルをより速く、より決定的な体制に変化させ、より多様性を増す。
この「log-Lagrangian」の観点を用いて、ターゲットトークンを選択するのに必要な最小限の方法で隠れた状態を摂動するジャコビアンステアリングと呼ばれる制御手法を導出する。
このアプローチは、2つの試験されたモデルにおいてほぼ一定エネルギーを維持し、モデルの自然出力よりも意味的品質の高い連続性を生成する。
このメカニクスレンズを通してトランスフォーマーを見ることは、解釈可能性、異常検出、低リスクステアリングの基本的な基礎を提供する。
これは強力なモデルを予測しやすくし、人間の意図に合わせるのに役立つだろう。
関連論文リスト
- Forecasting Continuous Non-Conservative Dynamical Systems in SO(3) [51.510040541600176]
コンピュータビジョンにおける移動物体の回転をモデル化するための新しい手法を提案する。
我々のアプローチは、入力ノイズに対して頑健でありながら、エネルギーと運動量保存に非依存である。
トレーニング中の雑音状態から物体のダイナミクスを近似させることで、シミュレーションや様々な現実世界の設定において頑健な外挿能力が得られる。
論文 参考訳(メタデータ) (2025-08-11T09:03:10Z) - Probabilistic Latent Variable Modeling for Dynamic Friction Identification and Estimation [2.638878351659023]
ロボット工学における動的モデルの同定は、制御設計、摩擦補償、出力トルク推定をサポートするために不可欠である。
本稿では,潜伏状態を用いたロボット関節の未同定ダイナミクスについて考察する。
予測最大化 (EM) アルゴリズムを用いてモデルパラメータの近似最大推定 (MLE) を求める。
論文 参考訳(メタデータ) (2024-12-20T10:16:18Z) - PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。
モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。
この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文 参考訳(メタデータ) (2024-02-25T05:04:51Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Particle-Based Score Estimation for State Space Model Learning in
Autonomous Driving [62.053071723903834]
マルチオブジェクト状態推定はロボットアプリケーションの基本的な問題である。
粒子法を用いて最大形パラメータを学習することを検討する。
自動運転車から収集した実データに本手法を適用した。
論文 参考訳(メタデータ) (2022-12-14T01:21:05Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Distilling the Knowledge from Normalizing Flows [22.578033953780697]
正規化フローは、複数の音声および視覚問題において強力な性能を示す生成モデルの強力なクラスである。
本稿では, 簡易蒸留法を提案し, 画像超解像と音声合成のための現状条件付きフローベースモデルの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-24T00:10:22Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。