論文の概要: Differential Smoothing Mitigates Sharpening and Improves LLM Reasoning
- arxiv url: http://arxiv.org/abs/2511.19942v1
- Date: Tue, 25 Nov 2025 05:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.288512
- Title: Differential Smoothing Mitigates Sharpening and Improves LLM Reasoning
- Title(参考訳): ディファレンシャルスムース化によるシャープ化とLLM推論の改善
- Authors: Jingchu Gai, Guanning Zeng, Huaqing Zhang, Aditi Raghunathan,
- Abstract要約: 大規模言語モデルの強化学習(RL)による微調整は,多種多様性の欠如による多種多様性の崩壊につながることが広く認識されている。
我々は、バニラRLと広く使われているエントロピーベースの言語を上回り、正確性と多様性の両方を確実に改善する原則的手法、テキスト微分スムーシングを導入する。
- 参考スコア(独自算出の注目度): 23.202550214006237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is widely recognized that reinforcement learning (RL) fine-tuning of large language models often leads to \textit{diversity collapse}, where outputs lack variety. Prior work has proposed a range of heuristics to counteract this effect, but these methods are ad hoc: they frequently trade off correctness for diversity, their effectiveness varies across tasks, and in some cases they even contradict one another. In this work, we place these observations on a rigorous foundation. We first provide a formal proof of why RL fine-tuning exhibits diversity collapse via a selection and reinforcement bias. Next, we make a key observation that any reward modification to address diversity collapse only needs to be applied on the correct trajectories. Building directly on this analysis, we introduce a principled method -- \textit{differential smoothing} -- that provably improves both correctness and diversity, outperforming vanilla RL as well as widely used entropy-based heuristics. Our theory precisely characterizes when existing heuristics help and why they fail, while showing that differential smoothing is universally superior. Extensive experiments with models from 1B to 7B parameters, across domains including CountDown and real-world mathematical reasoning, demonstrate consistent gains. Differential smoothing improves both Pass@1 and Pass@k, with up to 6.7\% improvements on AIME24 dataset.
- Abstract(参考訳): 大規模言語モデルの強化学習(RL)による微調整が,出力の多様性が欠如する「textit{diversity collapse}」につながることが広く認識されている。
従来の研究は、この効果に対抗するための様々なヒューリスティックスを提案しているが、これらの手法は、しばしば多様性の正しさをトレードオフし、それらの効果はタスクによって異なり、場合によっては互いに矛盾することもある。
本研究では、これらの観測結果を厳密な基礎の上に配置する。
まず、RL微調整がなぜ多様性の崩壊を示すのかを、選択と強化バイアスによって公式に証明する。
次に,多様性の崩壊に対処するための報酬の修正は,正しい軌道にのみ適用する必要があることを重要視する。
この分析を直接ベースとして,バニラRLと広く使用されているエントロピーに基づくヒューリスティックスとを両立させる原理的手法である「textit{differential smoothing}」を導入する。
我々の理論は、既存のヒューリスティックスがなぜ失敗するのかを正確に特徴づけると同時に、微分滑らか化が普遍的に優れていることを示す。
1Bから7Bパラメータのモデルによる大規模な実験は、CountDownや実世界の数学的推論を含む領域にわたって、一貫した利得を示している。
差分スムーシングはPass@1とPass@kの両方を改善し、AIME24データセットでは最大6.7\%改善されている。
関連論文リスト
- Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - On the Effect of Sampling Diversity in Scaling LLM Inference [57.31028064284527]
大規模言語モデル(LLM)のスケーリング推論は、パフォーマンス向上の鍵となる。
解の精度と応答の有意な多様性の関係から,スケーリング推論における急激な多様性の効果を体系的に研究した。
また,Best-of-N$選択後の有意義な多様なプロンプトから生成した応答は,定常的なプロンプトから生成した応答よりも有意に低い値を示した。
論文 参考訳(メタデータ) (2025-02-16T07:37:58Z) - Improving the Natural Language Inference robustness to hard dataset by data augmentation and preprocessing [1.7487745673871375]
自然言語推論(英: Natural Language Inference、NLI)とは、仮説が与えられた前提によって正当化できるかどうかを推測するタスクである。
本稿では,単語重複,数値推論,長さミスマッチ問題を解くために,データ拡張と事前処理手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T01:49:23Z) - Generalizing to any diverse distribution: uniformity, gentle finetuning and rebalancing [55.791818510796645]
我々は,訓練データから大きく逸脱した場合でも,様々なテスト分布によく適応するモデルを開発することを目的としている。
ドメイン適応、ドメイン一般化、ロバスト最適化といった様々なアプローチは、アウト・オブ・ディストリビューションの課題に対処しようと試みている。
我々は、既知のドメイン内の十分に多様なテスト分布にまたがる最悪のケースエラーを考慮することで、より保守的な視点を採用する。
論文 参考訳(メタデータ) (2024-10-08T12:26:48Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Is High Variance Unavoidable in RL? A Case Study in Continuous Control [42.960199987696306]
強化学習実験は、明らかに高いばらつきがある。
微妙な詳細は、測定結果に不均等に大きな影響を与える可能性がある。
早期分散の原因の一つが数値不安定性であることを示す。
論文 参考訳(メタデータ) (2021-10-21T15:59:37Z) - What causes the test error? Going beyond bias-variance via ANOVA [21.359033212191218]
現代の機械学習手法は、しばしば過度にパラメータ化され、細かいレベルでのデータへの適応を可能にする。
最近の研究は、なぜ過度なパラメータ化が一般化に役立つのかをより深く理解することを目的としている。
本研究では, 差分解析(ANOVA)を用いて, テスト誤差の分散を対称的に分解する手法を提案する。
論文 参考訳(メタデータ) (2020-10-11T05:21:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。