論文の概要: Language Models that Think, Chat Better
- arxiv url: http://arxiv.org/abs/2509.20357v1
- Date: Wed, 24 Sep 2025 17:57:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.932806
- Title: Language Models that Think, Chat Better
- Title(参考訳): より良く考える言語モデル
- Authors: Adithya Bhaskar, Xi Ye, Danqi Chen,
- Abstract要約: 検証可能な報酬(RLVR)を用いた強化学習は、数学やコードなどの検証可能な領域におけるルールベースの報酬を使用することで、言語モデル推論を改善する。
本稿では、RLVRパラダイムが検証可能な領域を超えて有効であることを示し、汎用チャット機能のための**RL****odel-rewarded **T*hinking (**RLMT**)を導入している。
- 参考スコア(独自算出の注目度): 37.415503528883875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) improves language model reasoning by using rule-based rewards in verifiable domains such as mathematics and code. However, RLVR leads to limited generalization for open-ended tasks -- such as writing outline essays or making meal plans -- where humans reason routinely. This paper shows that the RLVR paradigm is effective beyond verifiable domains, and introduces **RL** with **M**odel-rewarded **T**hinking (**RLMT**) for general-purpose chat capabilities. Using diverse real-world prompts, RLMT requires LMs to generate long CoT reasoning before response, and optimizes them with online RL against a preference-based reward model used in RLHF. Across 40 training runs on Llama-3.1-8B and Qwen-2.5-7B (both base and instruct) and multiple optimization algorithms (DPO, PPO, and GRPO), RLMT consistently outperforms standard RLHF pipelines. This includes substantial gains of 3-7 points on three chat benchmarks (AlpacaEval2, WildBench, and ArenaHardV2), along with 1-3 point improvements on other tasks like creative writing and general knowledge. Our best 8B model surpasses GPT-4o in chat and creative writing and rivals Claude-3.7-Sonnet (Thinking). RLMT can also be applied directly to base models without an SFT stage, akin to R1-Zero training. Remarkably, with only 7K prompts, Llama-3.1-8B base trained with our RLMT recipe outperforms Llama-3.1-8B-Instruct post-trained with a complex multi-staged pipeline with 25M+ examples. We close with qualitative and quantitative analyses of how trained models plan their responses. Our results rethink the post-training pipeline and call upon future work to understand and employ thinking more broadly.
- Abstract(参考訳): 検証可能な報酬(RLVR)を用いた強化学習は、数学やコードなどの検証可能な領域におけるルールベースの報酬を使用することで、言語モデル推論を改善する。
しかし、RLVRは、人間が日常的に理にかなったエッセイを書いたり、食事計画を立てたりといった、オープンエンドタスクの限定的な一般化につながっている。
本稿では、RLVRパラダイムが検証可能な領域を超えて有効であることを示し、汎用チャット機能のための**RL****odel-rewarded **T*hinking (**RLMT**)を導入している。
RLMTは様々な現実世界のプロンプトを用いて、応答前に長いCoT推論を生成するためにLMを必要とし、RLHFで使用される嗜好に基づく報酬モデルに対してオンラインRLでそれらを最適化する。
40を超えるトレーニングは、Llama-3.1-8BとQwen-2.5-7B(ベースとインストラクションの両方)と複数の最適化アルゴリズム(DPO、PPO、GRPO)で実行され、RLMTは標準のRLHFパイプラインを一貫して上回っている。
これには、3つのチャットベンチマーク(AlpacaEval2、WildBench、ArenaHardV2)で3~7ポイントの大幅な増加と、クリエイティブな書き込みや一般的な知識といったタスクの1~3ポイントの改善が含まれている。
われわれのベスト8Bモデルは、チャットやクリエイティブな執筆でGPT-4oを抜いて、ライバルのClaude-3.7-Sonnet(Thinking)を抜いている。
RLMTは、R1-Zeroトレーニングと同様に、SFTステージなしでベースモデルに直接適用することもできる。
7Kのプロンプトしか持たないLlama-3.1-8Bベースは、我々のRLMTレシピで訓練されたLlama-3.1-8B-インストラクトを25M以上のサンプルを持つ複雑な多段パイプラインで後から訓練した。
我々は、訓練されたモデルがどのように反応を計画するかを質的かつ定量的に分析する。
我々の結果は、ポストトレーニングパイプラインを再考し、思考をより広範に理解し、活用するよう将来の作業を呼び掛けます。
関連論文リスト
- Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。
しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。
本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文 参考訳(メタデータ) (2025-09-07T11:52:18Z) - Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective [82.24301452333577]
強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
論文 参考訳(メタデータ) (2025-06-17T20:24:00Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild [46.25416990387885]
ロングチェーン・オブ・シント(CoT)推論は、ルールベースの報酬を持つ単純な強化学習フレームワークを通じて自然に現れる。
LLama3-8B,Mistral-7B/24B,DeepSeek-Math-7B,Qwen2.5-math-7B,およびQwen2.5モデル0.5Bから32Bを含む10種類のベースモデルを対象としたゼロRLトレーニングについて検討した。
論文 参考訳(メタデータ) (2025-03-24T17:06:10Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。