論文の概要: Autoregressive Language Models are Secretly Energy-Based Models: Insights into the Lookahead Capabilities of Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2512.15605v1
- Date: Wed, 17 Dec 2025 17:14:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.070487
- Title: Autoregressive Language Models are Secretly Energy-Based Models: Insights into the Lookahead Capabilities of Next-Token Prediction
- Title(参考訳): 自己回帰型言語モデルは極秘エネルギーベースモデルである:次世代予測のルックアヘッド能力の考察
- Authors: Mathieu Blondel, Michael E. Sander, Germain Vivier-Ardisson, Tianlin Liu, Vincent Roulet,
- Abstract要約: 自己回帰モデル(ARM)とエネルギーベースモデル(EBM)の統一ビューを提供する。
ARMの教師付き学習とEMMの等価性を導出する。
本結果は,次世代の予測パラダイムをベースとしつつも,ARMの今後の計画能力に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 13.764740803730803
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autoregressive models (ARMs) currently constitute the dominant paradigm for large language models (LLMs). Energy-based models (EBMs) represent another class of models, which have historically been less prevalent in LLM development, yet naturally characterize the optimal policy in post-training alignment. In this paper, we provide a unified view of these two model classes. Taking the chain rule of probability as a starting point, we establish an explicit bijection between ARMs and EBMs in function space, which we show to correspond to a special case of the soft Bellman equation in maximum entropy reinforcement learning. Building upon this bijection, we derive the equivalence between supervised learning of ARMs and EBMs. Furthermore, we analyze the distillation of EBMs into ARMs by providing theoretical error bounds. Our results provide insights into the ability of ARMs to plan ahead, despite being based on the next-token prediction paradigm.
- Abstract(参考訳): 自動回帰モデル(ARM)は、現在、大規模言語モデル(LLM)の主要なパラダイムとなっている。
エネルギーベースモデル(EBMs)は、歴史的にLLM開発においてあまり普及していない別のモデルのクラスを表すが、訓練後のアライメントにおける最適なポリシーを自然に特徴付ける。
本稿では、これら2つのモデルクラスの統一的なビューを提供する。
確率の連鎖則を出発点として関数空間におけるARMとEMMの間に明示的な単射を確立し、最大エントロピー強化学習におけるソフトベルマン方程式の特別な場合に対応することを示す。
この目的に基づいて、ARMの教師付き学習とESMの等価性を導出する。
さらに,EBMのARMへの蒸留を理論的誤差境界により解析する。
この結果から,次世代の予測パラダイムをベースとしながら,ARMの今後の計画能力に関する知見が得られた。
関連論文リスト
- Better Language Model-Based Judging Reward Modeling through Scaling Comprehension Boundaries [3.930598942647121]
本稿では、説明に基づくスロットフレームワークを用いて予測を行う2段階のLMに基づく評価報酬モデルを提案する。
ヒューマンフィードバック(RLHF)からの強化学習とアウト・オブ・ディストリビューション(OOD)シナリオの両方において、ESFP-RMフレームワークはより安定的で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-25T17:11:28Z) - Towards Machine Theory of Mind with Large Language Model-Augmented Inverse Planning [0.022940141855172035]
本稿では,大言語モデル(LLM)を仮説と可能性関数を生成するメカニズムとして用いたマシン理論(ToM)のハイブリッド手法を提案する。
また、オープンエンドタスクにおいて精神状態を予測するモデルの可能性を示す。
論文 参考訳(メタデータ) (2025-07-04T16:01:27Z) - Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。