論文の概要: Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2603.24844v1
- Date: Wed, 25 Mar 2026 22:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.005387
- Title: Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models
- Title(参考訳): モードを超えたリーチ:言語モデルにおける分散推論のためのRL
- Authors: Isha Puri, Mehul Damani, Idan Shenfeld, Marzyeh Ghassemi, Jacob Andreas, Yoon Kim,
- Abstract要約: 本稿では,複数解に対する分布推論を行うための多解補足学習手法について述べる。
質問応答, 診断, コーディングベンチマークを通じて, 単一回答学習ベースラインと比較して, 多様性, カバレッジ, 設定レベルの校正スコアが向上した。
- 参考スコア(独自算出の注目度): 78.68818219506313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a question, a language model (LM) implicitly encodes a distribution over possible answers. In practice, post-training procedures for LMs often collapse this distribution onto a single dominant mode. While this is generally not a problem for benchmark-style evaluations that assume one correct answer, many real-world tasks inherently involve multiple valid answers or irreducible uncertainty. Examples include medical diagnosis, ambiguous question answering, and settings with incomplete information. In these cases, we would like LMs to generate multiple plausible hypotheses, ideally with confidence estimates for each one, and without computationally intensive repeated sampling to generate non-modal answers. This paper describes a multi-answer reinforcement learning approach for training LMs to perform distributional reasoning over multiple answers during inference. We modify the RL objective to enable models to explicitly generate multiple candidate answers in a single forward pass, internalizing aspects of inference-time search into the model's generative process. Across question-answering, medical diagnostic, and coding benchmarks, we observe improved diversity, coverage, and set-level calibration scores compared to single answer trained baselines. Models trained with our approach require fewer tokens to generate multiple answers than competing approaches. On coding tasks, they are also substantially more accurate. These results position multi-answer RL as a principled and compute-efficient alternative to inference-time scaling procedures such as best-of-k. Code and more information can be found at https://multi-answer-rl.github.io/.
- Abstract(参考訳): ある質問に対して、言語モデル(LM)は暗黙的に答えの分布を符号化する。
実際には、LMのポストトレーニング手順は、この分布を1つの支配的なモードに分解することが多い。
これは一般に1つの正しい答えを仮定するベンチマークスタイルの評価には問題はないが、現実の多くのタスクは本質的に複数の有効な答えまたは既約不確実性を含む。
例えば、診断、曖昧な質問応答、不完全な情報の設定などがある。
これらのケースでは、LMに複数の可算仮説を生成させ、理想的には各仮説に対する信頼度を推定し、非モーダルな答えを生成するために計算的に繰り返しサンプリングを行わないよう求めている。
本稿では,複数解に対する分布推論を行うための多解補足学習手法について述べる。
我々は、モデルが1つの前方通過で複数の候補解を明示的に生成できるようにRLの目的を変更し、モデルの生成過程における推論時間探索の側面を内部化する。
質問応答, 診断, コーディングベンチマークを通じて, 単一回答学習ベースラインと比較して, 多様性, カバレッジ, 設定レベルの校正スコアが向上した。
私たちのアプローチでトレーニングされたモデルは、競合するアプローチよりも複数の回答を生成するためにトークンが少なくなります。
コーディングタスクに関しては、かなり正確です。
これらの結果は、マルチアンサーRLを、ベスト・オブ・kのような推論時間スケーリングの方法に代わる、原理的で計算効率のよい代替品として位置づけている。
コードと詳細はhttps://multi-answer-rl.github.io/.com/で確認できる。
関連論文リスト
- Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - No Compute Left Behind: Rethinking Reasoning and Sampling with Masked Diffusion Models [42.158430350703505]
マスク付き拡散言語モデルは、ランダムにマスキングされたシーケンスにおける埋め込み位置を訓練する。
推論・アズ・インフィルとマルチトークンエントロピーデコーディングを提案する。
本研究は,MDLMが使用するトレーニングと計算によって,多くの新しい推論とポストトレーニング手法が解き放たれることを示す。
論文 参考訳(メタデータ) (2025-10-22T19:41:27Z) - The Majority is not always right: RL training for solution aggregation [53.1050856072799]
我々はアグリゲータモデルをトレーニングし、最終的な正解をレビューし、精査し、合成する。
重要な要素は、簡単なトレーニング例と厳しいトレーニング例のバランスを取ることだ。
我々の手法であるAggLMは、強いルールベースと報酬モデルベースラインの両方を上回ります。
論文 参考訳(メタデータ) (2025-09-08T16:39:38Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Learning to Reason Across Parallel Samples for LLM Reasoning [48.41933431325965]
大規模言語モデル(LLM)において、テスト時間計算のスケーリングは大幅なパフォーマンス向上をもたらす
本稿では,このような複数のサンプル集合を利用する新しい手法を提案する。
5つの推論データセットの実験は、SSAの有効性と効率を実証している。
論文 参考訳(メタデータ) (2025-06-10T17:42:35Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。