論文の概要: Can Large Language Models Develop Strategic Reasoning? Post-training Insights from Learning Chess
- arxiv url: http://arxiv.org/abs/2507.00726v2
- Date: Wed, 02 Jul 2025 05:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.636894
- Title: Can Large Language Models Develop Strategic Reasoning? Post-training Insights from Learning Chess
- Title(参考訳): 大規模言語モデルはストラテジック推論を発達させるか?
- Authors: Dongyoon Hwang, Hojoon Lee, Jaegul Choo, Dongmin Park, Jongho Park,
- Abstract要約: 大規模言語モデル(LLM)が強化学習(RL)によって戦略的推論能力を発達させることができるかを検討する。
LLMの出力移動品質に高い報酬を与えるために,チェスを前提としたアクション値ネットワークを利用する。
蒸留法に基づく高密度報酬は、しばしばスパース二進報酬よりも優れていることを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 34.55301520374325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning (RL) for large language models (LLMs) has shown promise in mathematical reasoning, strategic reasoning for LLMs using RL remains largely unexplored. We investigate whether LLMs can develop strategic reasoning capabilities through RL in chess. To this end, we leverage a chess-pretrained action-value network to provide dense reward on the LLM's output move quality, which can be seen as a form of knowledge distillation. Our experiments show that our distillation-based dense rewards often outperform sparse binary rewards. However, surprisingly, all models plateau far below expert levels. We provide SFT and RL ablations on chess reasoning training and find evidence that this limitation stems from a deficit in the pretrained models' internal understanding of chess--a deficit which RL alone may not be able to fully overcome.
- Abstract(参考訳): 大規模言語モデル (LLM) に対する強化学習 (RL) は数学的推論において有望であるが, RL を用いた LLM の戦略的推論は未解明のままである。
LLMがチェスにおけるRLを介して戦略的推論機能を開発することができるかを検討する。
この目的のために,チェスを前提とした行動価値ネットワークを活用し,LLMの出力移動品質に高い報酬を与える。
以上の結果から, 蒸留法に基づく高密度報酬は, 希少な二進報酬よりも優れていることが示唆された。
しかし、驚くべきことに、すべてのモデルがエキスパートレベルをはるかに下回っている。
我々は、チェス推論訓練に関するSFTおよびRLの略語を提供し、この制限は、事前訓練されたモデルのチェスに対する内的理解の欠如に起因していることを示す。
関連論文リスト
- LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities [21.42711537107199]
我々は,Large Language Models (LLMs) が意思決定シナリオにおいてサブ最適に機能する理由を考察する。
自己生成型CoT論理の強化学習(Reinforcement Learning, RL)による微調整によるこれらの欠点の緩和を提案する。
論文 参考訳(メタデータ) (2025-04-22T17:57:14Z) - Empowering LLMs in Decision Games through Algorithmic Data Synthesis [29.128280701799074]
意思決定ゲームは、大規模言語モデルの推論能力を評価し、強化するための理想的なサンドボックスとして機能する。
データ合成戦略を設計し、2つの古典ゲーム、DoudizhuとGoから広範囲のオフラインデータセットをキュレートする。
我々は、このデータをLLMトレーニングに効果的に組み込むための一連の技術を開発し、その結果、Mastermind-Dou と Mastermind-Go という2つの新しいエージェントを生み出した。
論文 参考訳(メタデータ) (2025-03-18T07:30:29Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Large Language Models Playing Mixed Strategy Nash Equilibrium Games [1.060608983034705]
本稿では,混合戦略のナッシュ均衡と純粋戦略のナッシュ均衡が存在しないゲームにおいて,ナッシュ均衡を求めるための大規模言語モデルの能力に焦点を当てる。
この研究は、コード実行の可能性を備えたLLMの性能が大幅に向上していることを明らかにする。
LLMは、よく知られた標準ゲームにおいて顕著な熟練度を示すが、その性能は、同じゲームのわずかな変更に直面した時に低下する。
論文 参考訳(メタデータ) (2024-06-15T09:30:20Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。