論文の概要: LLMs as High-Dimensional Nonlinear Autoregressive Models with Attention: Training, Alignment and Inference
- arxiv url: http://arxiv.org/abs/2602.00426v1
- Date: Sat, 31 Jan 2026 00:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.179865
- Title: LLMs as High-Dimensional Nonlinear Autoregressive Models with Attention: Training, Alignment and Inference
- Title(参考訳): 注意を伴う高次元非線形自己回帰モデルとしてのLCM:トレーニング,アライメント,推論
- Authors: Vikram Krishnamurthy,
- Abstract要約: トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は通常、アーキテクチャコンポーネントやトレーニング手順のコレクションを通して記述される。
注意に基づく高次元非線形自己回帰モデルとしてLSMを定式化する。
- 参考スコア(独自算出の注目度): 15.493230983626281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) based on transformer architectures are typically described through collections of architectural components and training procedures, obscuring their underlying computational structure. This review article provides a concise mathematical reference for researchers seeking an explicit, equation-level description of LLM training, alignment, and generation. We formulate LLMs as high-dimensional nonlinear autoregressive models with attention-based dependencies. The framework encompasses pretraining via next-token prediction, alignment methods such as reinforcement learning from human feedback (RLHF), direct preference optimization (DPO), rejection sampling fine-tuning (RSFT), and reinforcement learning from verifiable rewards (RLVR), as well as autoregressive generation during inference. Self-attention emerges naturally as a repeated bilinear--softmax--linear composition, yielding highly expressive sequence models. This formulation enables principled analysis of alignment-induced behaviors (including sycophancy), inference-time phenomena (such as hallucination, in-context learning, chain-of-thought prompting, and retrieval-augmented generation), and extensions like continual learning, while serving as a concise reference for interpretation and further theoretical development.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は、一般的にアーキテクチャコンポーネントやトレーニング手順のコレクションを通じて記述され、その基盤となる計算構造を無視する。
本稿では、LLMトレーニング、アライメント、生成の明示的、方程式レベルの記述を求める研究者に対して、簡潔な数学的参照を提供する。
注意に基づく高次元非線形自己回帰モデルとしてLSMを定式化する。
このフレームワークは、次のトーケン予測による事前学習、人間のフィードバックからの強化学習(RLHF)、直接優先最適化(DPO)、拒絶サンプリング微調整(RSFT)、検証可能な報酬(RLVR)からの強化学習(RLVR)、推論中の自己回帰生成などのアライメント手法を含む。
自己注意は、双線形--ソフトマックス--線形合成として自然に現れ、非常に表現力のあるシーケンスモデルを生成する。
この定式化は、アライメントによって引き起こされる行動(シコファンシーを含む)、推論時間現象(幻覚、文脈内学習、チェーン・オブ・シンセサイティング、検索強化生成など)、連続学習のような拡張の原則解析を可能にし、解釈とさらなる理論的発展のための簡潔な参照として機能する。
関連論文リスト
- Do Reasoning Models Enhance Embedding Models? [48.43242995118735]
最先端の埋め込みモデルは、対照的な学習によって適応されたデコーダのみの大規模言語モデルバックボーンから、ますます派生している。
RLVRで調整したバックボーンの埋め込みモデルでは,同一のトレーニングレシピを適用した場合,ベースボーンに対して一貫した性能上の優位性は得られなかった。
論文 参考訳(メタデータ) (2026-01-29T02:48:34Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation [23.945049006150555]
大規模言語モデル(LLM)は、多様なデジタルプラットフォームにまたがってパーソナライズされたコンテンツを配信することによって、ユーザエンゲージメントを高める重要なツールとなっている。
LLMを主要なレコメンデーションポリシとして直接デプロイすることは、永続的なレイテンシの問題を含む、注目すべき課題を提示する。
本稿では,LLM生成軌道からの模倣学習を利用した新しいオフライン強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-15T07:28:29Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - DrSR: LLM based Scientific Equation Discovery with Dual Reasoning from Data and Experience [14.093206703519103]
DrSRは、データ駆動の洞察と反射学習を組み合わせて、堅牢性と発見能力の両方を強化するフレームワークである。
物理学、化学、生物学、材料科学における学際的なデータセットにわたる実験は、DrSRが有効な方程式率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-06-04T04:52:34Z) - Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws [52.10468229008941]
本稿では,戦略データの選択や重み付けを通じて,対象モデルのトレーニングを指導・強化するための基準として,訓練モデルを用いた新たな学習パラダイムを定式化する。
提案手法は,参照モデルを持たないトレーニングと比較して,一般化とデータの効率性を改善する理由に関する理論的知見を提供する。
これらの知見に基づいて,DRRho-CLIPと呼ばれる参照モデルを用いたコントラスト言語-画像事前学習手法を提案する。
論文 参考訳(メタデータ) (2025-05-10T16:55:03Z) - State-space models can learn in-context by gradient descent [1.3087858009942543]
状態空間モデルは、勾配に基づく学習を実行し、変換器と全く同じ方法で、文脈内学習に使用することができることを示す。
具体的には、1つの構造化状態空間モデル層が乗算入力と出力ゲーティングで拡張され、暗黙線形モデルの出力を再現できることを証明した。
また、状態空間モデルと線形自己意識の関係と、文脈内で学習する能力に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:22:38Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - BenchML: an extensible pipelining framework for benchmarking
representations of materials and molecules at scale [0.0]
物質や分子のデータセットに対して化学系の表現をベンチマークする機械学習フレームワークを提案する。
モデル複雑性を単純な回帰スキームに制限することで、生の記述子の性能を評価するのが原則である。
結果として得られるモデルは、将来のメソッド開発を知らせるベースラインとして意図されている。
論文 参考訳(メタデータ) (2021-12-04T09:07:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。