論文の概要: Variational Reasoning for Language Models
- arxiv url: http://arxiv.org/abs/2509.22637v1
- Date: Fri, 26 Sep 2025 17:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.634384
- Title: Variational Reasoning for Language Models
- Title(参考訳): 言語モデルに対する変分推論
- Authors: Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang,
- Abstract要約: 本稿では,思考トレースを潜在変数として扱う言語モデルのための変分推論フレームワークを提案する。
GRPOを含むリジェクションサンプリングとバイナリリワードRLは局所的なフォワードKLの目的と解釈できることを示す。
- 参考スコア(独自算出の注目度): 93.08197299751197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a variational reasoning framework for language models that treats thinking traces as latent variables and optimizes them through variational inference. Starting from the evidence lower bound (ELBO), we extend it to a multi-trace objective for tighter bounds and propose a forward-KL formulation that stabilizes the training of the variational posterior. We further show that rejection sampling finetuning and binary-reward RL, including GRPO, can be interpreted as local forward-KL objectives, where an implicit weighting by model accuracy naturally arises from the derivation and reveals a previously unnoticed bias toward easier questions. We empirically validate our method on the Qwen 2.5 and Qwen 3 model families across a wide range of reasoning tasks. Overall, our work provides a principled probabilistic perspective that unifies variational inference with RL-style methods and yields stable objectives for improving the reasoning ability of language models. Our code is available at https://github.com/sail-sg/variational-reasoning.
- Abstract(参考訳): 本稿では,思考トレースを潜在変数として扱い,変分推論によってそれらを最適化する言語モデルのための変分推論フレームワークを提案する。
ELBO(エビデンスローバウンド)から、より厳密なバウンダリに対するマルチトレース対象に拡張し、変分後部のトレーニングを安定化するフォワードKLの定式化を提案する。
さらに, モデル精度による暗黙の重み付けが導出から自然に発生し, より簡単な質問に対する既知の偏見が明らかになるような, GRPO を含むリジェクションサンプリングやバイナリリワード RL を局所的なフォワード-KL の目的と解釈できることを示す。
我々は,Qwen 2.5 および Qwen 3 モデルファミリーに対して,幅広い推論課題に対して実験により検証を行った。
全体として、我々の研究は、RLスタイルの手法と変分推論を統一し、言語モデルの推論能力を改善するための安定した目的をもたらす、原則化された確率論的視点を提供する。
私たちのコードはhttps://github.com/sail-sg/variational-reasoning.comで利用可能です。
関連論文リスト
- Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Alignment as Distribution Learning: Your Preference Model is Explicitly a Language Model [12.063078727764045]
人間のフィードバックからの強化学習によるアライメントは理論的正当性に欠け、決定論的解のインセンティブを与える。
本稿では, 優先最大推定, 優先蒸留, 逆KL最小化の3つの基本学習目標を提案する。
我々は、我々の分布学習フレームワーク、特に嗜好蒸留が、RLHFとDPOのパフォーマンスを一貫して上回るか、あるいは一致しているかを実証的に示す。
論文 参考訳(メタデータ) (2025-06-02T10:36:31Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。
実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。
実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文 参考訳(メタデータ) (2025-03-04T19:57:47Z) - Reparameterized Variational Rejection Sampling [12.189621777178354]
変動リジェクションサンプリング(VRS)は、パラメータ提案分布とサンプリングリジェクションを組み合わせて、リッチな非パラメトリック分布の族を定義する。
提案手法は,実運用において良好に動作し,特に局所潜伏変数を持つモデルではブラックボックス推論に適していることを示す。
論文 参考訳(メタデータ) (2023-09-26T01:46:53Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Variational Causal Networks: Approximate Bayesian Inference over Causal
Structures [132.74509389517203]
離散DAG空間上の自己回帰分布をモデル化したパラメトリック変分族を導入する。
実験では,提案した変分後部が真の後部を良好に近似できることを示した。
論文 参考訳(メタデータ) (2021-06-14T17:52:49Z) - Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。
これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。
おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文 参考訳(メタデータ) (2020-02-17T19:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。