論文の概要: Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity
- arxiv url: http://arxiv.org/abs/2512.05962v1
- Date: Fri, 05 Dec 2025 18:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.15487
- Title: Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity
- Title(参考訳): LLMのフィルターは、多様性を形作る
- Authors: Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、推論に関わる課題を解決するためにLLMをチューニングするためのデファクトスタンダードとなっている。
我々は、RLが暗黙的に「モード探索」あるいは「ゼロ強制」逆KLを目標分布に最適化し、モデルがターゲットの特定の高確率領域に質量を集中させることを論じる。
そこで本研究では,まず,正解の相対確率を無視しながら,不正確な解をフィルタリングして得られる明示的対象分布から始める。
- 参考スコア(独自算出の注目度): 13.211627219720796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has become the de facto standard for tuning LLMs to solve tasks involving reasoning. However, growing evidence shows that models trained in such way often suffer from a significant loss in diversity. We argue that this arises because RL implicitly optimizes the "mode-seeking" or "zero-forcing" Reverse KL to a target distribution causing the model to concentrate mass on certain high-probability regions of the target while neglecting others. In this work, we instead begin from an explicit target distribution, obtained by filtering out incorrect answers while preserving the relative probabilities of correct ones. Starting from a pre-trained LLM, we approximate this target distribution using the $α$-divergence family, which unifies prior approaches and enables direct control of the precision-diversity trade-off by interpolating between mode-seeking and mass-covering divergences. On a Lean theorem-proving benchmark, our method achieves state-of-the-art performance along the coverage-precision Pareto frontier, outperforming all prior methods on the coverage axis.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、推論に関わる課題を解決するためにLLMをチューニングするためのデファクトスタンダードとなっている。
しかし、このような方法で訓練されたモデルは、しばしば多様性が著しく損なわれていることを示す証拠が増えている。
RLは「モード探索」あるいは「ゼロ強制」の逆KLを目標分布に暗黙的に最適化し、モデルが目標の特定の高確率領域に集中し、他を無視するからである。
本研究は,まず,正解の相対確率を保ちながら,不正確な解をフィルタリングして得られる明示的対象分布から始める。
事前学習したLSMから、このターゲット分布を$α$-divergence familyを用いて近似し、モード探索と質量探索の分岐を補間することにより、事前のアプローチを統一し、精度と多様性のトレードオフを直接制御できるようにする。
Lean theorem-proving benchmarkでは、我々の手法はカバレッジ精度のParetoフロンティアに沿った最先端のパフォーマンスを達成し、カバレッジ軸上のすべての先行手法より優れています。
関連論文リスト
- FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - Aligning Latent Spaces with Flow Priors [72.24305287508474]
本稿では,学習可能な潜在空間を任意の目標分布に整合させるための新しいフレームワークを提案する。
特に,提案手法は計算コストの高い確率評価を排除し,最適化時のODE解決を回避する。
論文 参考訳(メタデータ) (2025-06-05T16:59:53Z) - Importance Weighted Score Matching for Diffusion Samplers with Enhanced Mode Coverage [16.94974733994214]
一般的な手法では、逆KLベースの目的を最適化することで、ターゲットデータの欠如を回避できることが多い。
そこで本研究では,KLの分岐に類似した目的を直接ターゲットとした拡散型サンプリング器の訓練手法を提案する。
我々のアプローチは、すべての分布距離のメトリクスで既存のニューラルサンプリングよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-26T02:48:26Z) - Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models [31.589548159881932]
本稿では,拡散言語モデルの推論フレームワークであるDCoLT(Diffusion Chain of Lateral Thought)を紹介する。
DCoLTは、思考の中間段階において文法的正しさに厳格な規則を持たず、双方向で非線形な推論を可能にする。
DCoLT強化拡散言語モデル(DLM)は、SFTやRLで訓練された他のDLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-15T16:06:32Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Aligning Language Models with Preferences through f-divergence
Minimization [4.952674870169772]
f-DPGは、評価可能な任意のターゲット分布を近似するために、任意のf分割を使用することができる。
本稿では,Jensen-Shannon発散がこれらの目的のバランスを良好に保ち,KL発散を広いマージンで上回っていることを示す。
論文 参考訳(メタデータ) (2023-02-16T10:59:39Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - A Distributional Approach to Controlled Text Generation [3.279201607581627]
予め訓練された言語モデル(LM)から制御されたテキスト生成に対処するための分布的アプローチを提案する。
このビューでは、単一の形式的なフレームワークで、ターゲット lm 上で "pointwise" と "distributional" の制約を定義することができる。
次に,我々のアプローチのユニークな特徴である分布制約に関する実験を行い,言語モデルにおけるバイアス問題に対する対策としての可能性を示す。
論文 参考訳(メタデータ) (2020-12-21T19:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。