論文の概要: Reasoning Through Chess: How Reasoning Evolves from Data Through Fine-Tuning and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.05134v1
- Date: Mon, 06 Apr 2026 19:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.470325
- Title: Reasoning Through Chess: How Reasoning Evolves from Data Through Fine-Tuning and Reinforcement Learning
- Title(参考訳): チェスを通しての推論:微調整と強化学習を通じてデータから推論がどのように進化するか
- Authors: Lucas Dionisopoulos, Nicklas Majamaki, Prithviraj Ammanabrolu,
- Abstract要約: 理論的に着想を得たデータセットの集合がチェスにおける言語モデルのパフォーマンスにどのように影響するかを分析する。
最良の動きを直接予測するための微調整が、効率的なRLと最強のダウンストリーム性能につながることが分かりました。
RLは移動品質の分布にかなりの正の変化をもたらし, 副次効果として幻覚率を低下させることを示した。
- 参考スコア(独自算出の注目度): 7.920254637344918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can you get a language model to reason in a task it natively struggles with? We study how reasoning evolves in a language model -- from supervised fine-tuning (SFT) to reinforcement learning (RL) -- by analyzing how a set of theoretically-inspired datasets impacts language model performance in chess. We find that fine-tuning a model to directly predict the best move leads to effective RL and the strongest downstream performance -- however, the RL step elicits unfaithful reasoning (reasoning inconsistent with the chosen move). Alternatively, training on multi-move trajectories yields comparable downstream performance with faithful reasoning and more stable RL. We show that RL induces a substantial positive shift in the distribution of move quality and reduces hallucination rates as a side effect. Finally, we find several SFT-checkpoint metrics -- metrics spanning evaluation performance, hallucination rates, and reasoning quality -- to be predictive of post-RL model performance. We release checkpoints and final models as well as training data, evaluations, and code which allowed us to surpass leading open-source reasoning models in chess with a 7B-parameter model.
- Abstract(参考訳): ネイティブに苦労するタスクにおいて、どのように言語モデルを推論できるのでしょうか?
理論的にインスパイアされたデータセットのセットがチェスにおける言語モデルのパフォーマンスにどのように影響するかを分析することによって、言語モデルにおける推論が -- 教師付き微調整(SFT)から強化学習(RL)までどのように進化するかを研究する。
最高の動きを直接予測するためのモデルを微調整することで、効果的なRLと最強のダウンストリームパフォーマンスにつながることが分かっています -- しかし、RLステップは、(選択した動きと矛盾する)不誠実な推論を招きます。
あるいは、マルチモーブ軌道のトレーニングは、忠実な推論とより安定したRLで同等の下流性能が得られる。
RLは移動品質の分布にかなりの正の変化をもたらし, 副次効果として幻覚率を低下させることを示した。
最後に、評価性能、幻覚率、推論品質にまたがるいくつかのSFTチェックポイント指標が、後RLモデルのパフォーマンスを予測できることがわかった。
チェックポイントと最終モデルだけでなく,トレーニングデータや評価,コードもリリースしています。
関連論文リスト
- Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。
しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。
本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文 参考訳(メタデータ) (2025-09-07T11:52:18Z) - Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective [82.24301452333577]
強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
論文 参考訳(メタデータ) (2025-06-17T20:24:00Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models [83.24079543652253]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - Behavior Injection: Preparing Language Models for Reinforcement Learning [45.744838898763554]
我々はRL目標のステップごとの影響を分析し、効果的な後学習のための2つの重要な条件を同定する。
RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
提案手法は,複数のベースモデルを用いた2つの推論ベンチマークで評価する。
論文 参考訳(メタデータ) (2025-05-25T00:54:50Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。