論文の概要: Xiangqi-R1: Enhancing Spatial Strategic Reasoning in LLMs for Chinese Chess via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.12215v1
- Date: Wed, 16 Jul 2025 13:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.400386
- Title: Xiangqi-R1: Enhancing Spatial Strategic Reasoning in LLMs for Chinese Chess via Reinforcement Learning
- Title(参考訳): Xiangqi-R1:強化学習による中国のチェスにおけるLLMにおける空間戦略推論の強化
- Authors: Yuhao Chen, Shuochen Liu, Yuanjie Lyu, Chao Zhang, Jiayao Shi, Tong Xu,
- Abstract要約: ゲームプレイは長い間、人工知能(AGI)を評価するための基本的なベンチマークとして機能してきた。
本研究では,中国チェスを複雑な規則と空間的複雑さのために,挑戦的で豊かなテストベッドとして採用する。
我々は,500万のボードモブペアからなる大規模データセット上に構築されたXiangqiに適したトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.086587324629008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Game playing has long served as a fundamental benchmark for evaluating Artificial General Intelligence (AGI). While Large Language Models (LLMs) have demonstrated impressive capabilities in general reasoning, their effectiveness in spatial strategic reasoning, which is critical for complex and fully observable board games, remains insufficiently explored. In this work, we adopt Chinese Chess (Xiangqi) as a challenging and rich testbed due to its intricate rules and spatial complexity. To advance LLMs' strategic competence in such environments, we propose a training framework tailored to Xiangqi, built upon a large-scale dataset of five million board-move pairs enhanced with expert annotations and engine evaluations. Building on this foundation, we introduce Xiangqi-R1, a 7B-parameter model trained in multi-stage manner: (1) fine-tuning for legal move prediction to capture basic spatial rules, (2) incorporating strategic annotations to improve decision-making, and (3) applying reinforcement learning via Group Relative Policy Optimization (GRPO) with multi-dimensional reward signals to enhance reasoning stability. Our Experimental results indicate that, despite their size and power, general-purpose LLMs struggle to achieve satisfactory performance in these tasks. Compared to general-purpose LLMs, Xiangqi-R1 greatly advances with an 18% rise in move legality and a 22% boost in analysis accuracy. Our results point to a promising path for creating general strategic intelligence in spatially complex areas.
- Abstract(参考訳): ゲームプレイは長い間、AI(Artificial General Intelligence, AGI)を評価するための基本的なベンチマークとして機能してきた。
大規模言語モデル(LLM)は、一般的な推論において印象的な能力を示してきたが、その空間的戦略推論における効果は、複雑で完全に観察可能なボードゲームでは不十分なままである。
本研究では,中国語チェス(Xiangqi)を複雑な規則と空間的複雑さのため,困難で豊かなテストベッドとして採用する。
このような環境下でのLSMの戦略的能力向上のために,エキスパートアノテーションとエンジン評価によって強化された500万のボードモブペアからなる大規模データセット上に構築されたXiangqiに適したトレーニングフレームワークを提案する。
この基盤の上に構築したXiangqi-R1は,(1)基本空間規則を捉えるための法的な動き予測の微調整,(2)意思決定を改善するための戦略的アノテーションの導入,(3)グループ相対政策最適化(GRPO)による強化学習を多次元の報酬信号で適用し,推論安定性を向上する,多段階的な7Bパラメータモデルである。
実験結果から,LLMはサイズとパワーにもかかわらず,これらのタスクにおいて満足な性能を達成するのに苦慮していることが明らかとなった。
汎用LLMと比較して、Xiangqi-R1は18%の合法性向上と22%の精度向上で大幅に進歩した。
以上の結果から,空間的に複雑な領域における総合的戦略知能の創出が期待できる道のりが示唆された。
関連論文リスト
- Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [56.47577824219207]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Can LLMs Play Ô Ăn Quan Game? A Study of Multi-Step Planning and Decision Making [3.827471128756051]
我々は,ベトナムのボードゲーム「O uAn Quan」のレンズを通して,大規模言語モデル(LLM)を計画し,意思決定する能力について検討する。
具体的には,攻撃的から防御的まで多岐にわたるエージェントペルソナを開発し,O uAn Quan ゲームを様々な戦略で LLM 性能を評価するテストベッドとして利用する。
論文 参考訳(メタデータ) (2025-07-04T16:50:40Z) - Deep Reinforcement Learning Xiangqi Player with Monte Carlo Tree Search [0.4681661603096334]
本稿ではXiangqiのための深層強化学習(DRL)システムについて述べる。
戦略的自己再生と自己改善を可能にするために、ニューラルネットワークとMCTS(Monte Carlo Tree Search)を統合している。
論文 参考訳(メタデータ) (2025-06-18T21:11:17Z) - WGSR-Bench: Wargame-based Game-theoretic Strategic Reasoning Benchmark for Large Language Models [28.28739884703072]
本稿では,WGSR-Benchについて紹介する。WGSR-BenchはLarge Language Models (LLMs) の最初の戦略推論ベンチマークであり,WGSR-Benchをその評価環境として利用する。
我々は,戦略的推論の主要な能力を評価するために,環境意識,対人リスクモデリング,政策生成という3つの中核的課題に関するテストサンプルを設計する。
論文 参考訳(メタデータ) (2025-06-12T01:16:34Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Strategist: Self-improvement of LLM Decision Making via Bi-Level Tree Search [32.657454056329875]
大規模言語モデル(LLM)は、強力な一般化とゼロショット能力を示すが、詳細な計画と意思決定を必要とするタスクに苦労する。
両手法の長所を統合する新しいアプローチであるSTRATEGISTを紹介する。
本研究では,部分情報を持つ競合型マルチターンゲームのための最適戦略学習におけるSTRATEGISTの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-20T08:22:04Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。