論文の概要: LLM-Gomoku: A Large Language Model-Based System for Strategic Gomoku with Self-Play and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.21683v1
- Date: Thu, 27 Mar 2025 16:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:39.507846
- Title: LLM-Gomoku: A Large Language Model-Based System for Strategic Gomoku with Self-Play and Reinforcement Learning
- Title(参考訳): LLM-Gomoku:自己学習と強化学習を併用した大規模言語モデルによる戦略五目学習システム
- Authors: Hui Wang,
- Abstract要約: 本研究では,大規模言語モデル(LLM)に基づく五目AIシステムの開発を目的とする。
五目成層論や論理を理解・適用し、合理的な決定を下すよう設計されている。
広範囲な自己演奏訓練を経て、モデルの五目演奏能力は顕著に強化された。
- 参考スコア(独自算出の注目度): 4.22453895366234
- License:
- Abstract: In recent years, large language models (LLMs) have shown significant advancements in natural language processing (NLP), with strong capa-bilities in generation, comprehension, and rea-soning. These models have found applications in education, intelligent decision-making, and gaming. However, effectively utilizing LLMs for strategic planning and decision-making in the game of Gomoku remains a challenge. This study aims to develop a Gomoku AI system based on LLMs, simulating the human learning process of playing chess. The system is de-signed to understand and apply Gomoku strat-egies and logic to make rational decisions. The research methods include enabling the model to "read the board," "understand the rules," "select strategies," and "evaluate positions," while en-hancing its abilities through self-play and rein-forcement learning. The results demonstrate that this approach significantly improves the se-lection of move positions, resolves the issue of generating illegal positions, and reduces pro-cess time through parallel position evaluation. After extensive self-play training, the model's Gomoku-playing capabilities have been notably enhanced.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は自然言語処理 (NLP) において顕著な進歩を見せている。
これらのモデルは教育、知的意思決定、ゲームに応用されている。
しかし、五目ゲームにおける戦略計画や意思決定にLLMを効果的に活用することは依然として課題である。
本研究では,チェスの人間の学習過程をシミュレートした LLM に基づく五目AIシステムの開発を目的とする。
五目成層論や論理を理解・適用し、合理的な決定を下すよう設計されている。
研究手法には、モデルが「ボードを読む」、「ルールを理解する」、「戦略を選択する」、「位置を評価する」こと、そして自己学習と強化学習を通じてその能力を高めることが含まれる。
その結果, 本手法は移動位置の分離を著しく改善し, 不正位置発生の問題を解消し, 並列位置評価によるプロシース時間を短縮することを示した。
広範囲な自己演奏訓練を経て、モデルの五目演奏能力は顕著に強化された。
関連論文リスト
- SIKeD: Self-guided Iterative Knowledge Distillation for mathematical reasoning [49.29200323760457]
大きな言語モデル(LLM)は、推論スキルをより小さなモデルに転送することができる。
より小さなモデルは蒸留時に全ての戦略にLLM分布を適合させるほど表現力に乏しい。
この1つの戦略への依存は、より小さなモデルにおいて、望ましい戦略で困難な推論タスクを解決しようとするときに、課題となる。
論文 参考訳(メタデータ) (2024-10-24T09:29:18Z) - Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search [32.657454056329875]
LLMを利用したマルチエージェントゲームのための新しいスキル獲得手法STRATEGISTを提案する。
本手法はモンテカルロ木探索による自己再生シミュレーションにより品質フィードバックを収集する。
ゲームにおけるアクションプランニングと対話生成の両面において,我々の手法をどのように利用できるかを紹介する。
論文 参考訳(メタデータ) (2024-08-20T08:22:04Z) - UNO Arena for Evaluating Sequential Decision-Making Capability of Large Language Models [23.1274341939566]
逐次意思決定とは、初期決定がその後の決定に影響を及ぼす環境のダイナミクスを考慮に入れたアルゴリズムを指す。
タスク間の強力な機能を示す大きな言語モデル(LLM)によって、私たちは次のように問うざるを得ない。
我々は,LLMの逐次意思決定能力を評価するためにUNOアリーナを提案し,なぜUNOを選択するのかを詳細に説明する。
論文 参考訳(メタデータ) (2024-06-24T07:47:34Z) - Large Language Models Playing Mixed Strategy Nash Equilibrium Games [1.060608983034705]
本稿では,混合戦略のナッシュ均衡と純粋戦略のナッシュ均衡が存在しないゲームにおいて,ナッシュ均衡を求めるための大規模言語モデルの能力に焦点を当てる。
この研究は、コード実行の可能性を備えたLLMの性能が大幅に向上していることを明らかにする。
LLMは、よく知られた標準ゲームにおいて顕著な熟練度を示すが、その性能は、同じゲームのわずかな変更に直面した時に低下する。
論文 参考訳(メタデータ) (2024-06-15T09:30:20Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Strategic Reasoning with Language Models [35.63300060111918]
戦略的推論は、エージェントが様々な状況において他のエージェントと協力し、コミュニケーションし、競合することを可能にする。
既存の戦略ゲームに対するアプローチは、広範なトレーニングに依存しており、再訓練なしに新しいシナリオやゲームに一般化しない戦略を生み出している。
本稿では,AIエージェントの戦略的推論を可能にするために,事前訓練された大規模言語モデルと数発の連鎖例を用いたアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-30T16:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。