Fugu-MT 論文翻訳(概要): Mastering Board Games by External and Internal Planning with Language Models

論文の概要: Mastering Board Games by External and Internal Planning with Language Models

arxiv url: http://arxiv.org/abs/2412.12119v1
Date: Mon, 02 Dec 2024 18:56:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 16:39:32.642626
Title: Mastering Board Games by External and Internal Planning with Language Models
Title（参考訳）: 言語モデルを用いた外部・内部計画によるボードゲーム指導
Authors: John Schultz, Jakub Adamek, Matej Jusup, Marc Lanctot, Michael Kaisers, Sarah Perrin, Daniel Hennes, Jeremy Shar, Cannada Lewis, Anian Ruoss, Tom Zahavy, Petar Veličković, Laurel Prince, Satinder Singh, Eric Malmi, Nenad Tomašev,
Abstract要約: 検索ベースプランニングにより,複数のボードゲームにおいてLLMのプレイ能力を大幅に向上させることができることを示す。外部探索において、モデルはモンテカルロ木探索のロールアウトと外部エンジンへの呼び出しなしに評価をガイドし、内部探索では、モデルが潜在的将来性の線形化木を直接コンテキスト内で生成する。どちらも、関連するドメイン知識に基づいて事前訓練された言語モデルを構築し、これらのゲーム間の遷移と価値関数をキャプチャする。
参考スコア（独自算出の注目度）: 30.782334791241556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models perform well on a range of complex tasks (e.g., text generation, question answering, summarization), robust multi-step planning and reasoning remains a considerable challenge for them. In this paper we show that search-based planning can significantly improve LLMs' playing strength across several board games (Chess, Fischer Random / Chess960, Connect Four, and Hex). We introduce, compare and contrast two major approaches: In external search, the model guides Monte Carlo Tree Search (MCTS) rollouts and evaluations without calls to an external engine, and in internal search, the model directly generates in-context a linearized tree of potential futures and a resulting final choice. Both build on a language model pre-trained on relevant domain knowledge, capturing the transition and value functions across these games. We find that our pre-training method minimizes hallucinations, as our model is highly accurate regarding state prediction and legal moves. Additionally, both internal and external search indeed improve win-rates against state-of-the-art bots, even reaching Grandmaster-level performance in chess while operating on a similar move count search budget per decision as human Grandmasters. The way we combine search with domain knowledge is not specific to board games, suggesting direct extensions into more general language model inference and training techniques.
Abstract（参考訳）: 大規模言語モデルは、テキスト生成、質問応答、要約など、様々な複雑なタスクでうまく機能するが、堅牢なマルチステップ計画と推論は、それらにとって大きな課題である。本稿では,複数のボードゲーム(Chess,Fischer Random/Chess960,Connect Four,Hex)において,検索ベースのプランニングによりLLMのプレイ強度が大幅に向上することを示す。モデルがモンテカルロ木探索(MCTS)のロールアウトと評価を外部エンジンに呼び出しずにガイドし、内部サーチでは、モデルが将来の可能性の線形化木を直接生成し、最終的な選択をもたらす。どちらも、関連するドメイン知識に基づいて事前訓練された言語モデルを構築し、これらのゲーム間の遷移と価値関数をキャプチャする。事前学習法は,国家の予測や法的行動に関して極めて正確なモデルであるため,幻覚を最小化する。さらに、内部検索と外部検索の両方が、最先端のボットに対する勝利率を改善し、チェスのグランドマスターレベルのパフォーマンスを達成しつつ、意思決定ごとに人間のグランドマスターとして検索予算を数えている。探索とドメイン知識を組み合わせる方法はボードゲームに特化せず、より一般的な言語モデル推論とトレーニング技術への直接的な拡張を提案する。

関連論文リスト

LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess [30.797553771114746]
LLM CHESSは,大規模言語モデル(LLM)における推論と命令追従能力の一般化を調査するための評価フレームワークである。我々は,移動品質,移動法則,幻覚行動,ゲーム持続時間などの行動指標を用いて,ランダムな相手と対戦することで,50以上のオープンかつクローズドなソースモデルをランク付けする。トップ推論モデルのサブセットとして,可変構成のスキルを持つチェスエンジンと対戦して,Elo推定を導出する。
論文参考訳（メタデータ） (2025-12-01T18:51:08Z)
Real-Time World Crafting: Generating Structured Game Behaviors from Natural Language with Large Language Models [0.8869777013253825]
本稿では,対話型ゲームエンジンにLarge Language Modelsを安全に統合するための新しいアーキテクチャを提案する。我々のフレームワークは、LLMを使用してコマンドを制約付きドメイン特化言語に変換することでリスクを軽減する。本研究では,このシステムを2次元スペルクラフトゲームプロトタイプで評価する。
論文参考訳（メタデータ） (2025-10-19T18:09:44Z)
GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games [7.594173359523366]
GVGAI-LLMは,大規模言語モデル(LLM)の推論と問題解決能力を評価するためのゲームベンチマークである。 General Video Game AIフレームワーク上に構築され、既存のLLMベンチマークとは異なるタスクを処理するモデルの能力をテストするために設計された、アーケードスタイルのゲームの多種多様なコレクションを備えている。
論文参考訳（メタデータ） (2025-08-11T22:17:07Z)
Board Game Arena: A Framework and Benchmark for Assessing Large Language Models via Strategic Play [12.20709692079716]
Board Game Arenaライブラリは、Google OpenSpielライブラリに実装された戦略的ボードゲームを通じて、大きな言語モデル(LLM)の決定能力を評価するためのフレームワークを提供する。 LiteLLMによるモデルへのAPIアクセス、vLLMによるローカルモデルデプロイメント、Rayによる分散実行を提供する。本稿では,レポジトリの構造,特徴,モチベーションを要約し,LLMの推論とゲーム理論的振る舞いの実証的評価にどのように貢献するかを明らかにする。
論文参考訳（メタデータ） (2025-08-05T12:15:59Z)
MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文参考訳（メタデータ） (2025-05-26T17:58:50Z)
KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。 KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文参考訳（メタデータ） (2025-05-20T16:06:32Z)
SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文参考訳（メタデータ） (2025-05-12T09:45:40Z)
Monte Carlo Planning with Large Language Model for Text-Based Game Agents [27.385517721352368]
動的メモリ誘導大言語モデル (MC-DML) を用いたモンテカルロ計画法を提案する。 MC-DMLは、大規模言語モデル(LLM)の言語理解と推論能力と、ツリー探索アルゴリズムの探索的優位性を利用する。 MC-DMLアルゴリズムは,初期計画段階での各種ゲームの性能を著しく向上することを示した。
論文参考訳（メタデータ） (2025-04-23T16:23:15Z)
TALES: Text Adventure Learning Environment Suite [28.997169350434795]
推論は、LLM(Large Language Models)が世界と対話するための重要なスキルである。本稿では,多種多様な推論能力に挑戦し,評価するために設計された,多種多様な合成・人文テキストアドベンチャーゲームであるTALESを紹介する。シンセサイザーゲームで目覚ましいショーがあったにもかかわらず、トップのLSM駆動エージェントでさえ、人間の楽しみのために設計されたゲームで15%を達成できなかった。
論文参考訳（メタデータ） (2025-04-19T01:02:42Z)
V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
V-MAGEはMLLMの視覚的推論能力を評価するために設計されたゲームベースの評価フレームワークである。 V-MAGEを用いて主要なMLLMを評価し,視覚的知覚と推論において重要な課題を明らかにする。
論文参考訳（メタデータ） (2025-04-08T15:43:01Z)
Exploring Large Language Models for Word Games:Who is the Spy? [0.0]
本研究では,大言語モデル(LLM)がワードゲームに効果的に関与できるかを考察する。我々は,ロールワードの推測やアイデンティティの曖昧化といったタスクにおいて,LLMの優れたパフォーマンスを実現するためのChain-of-Thought(CoT)ベースのスケジューリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T14:13:02Z)
Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-15T18:42:48Z)
Explore the Reasoning Capability of LLMs in the Chess Testbed [45.12891789312405]
我々は,注釈付き戦略と戦術を統合することで,チェスにおける大規模言語モデルの推論能力を向上させることを提案する。我々はLLaMA-3-8Bモデルを微調整し、より優れたチェスの動きを選択するタスクにおいて、最先端の商用言語モデルと比較する。
論文参考訳（メタデータ） (2024-11-11T01:42:56Z)
clembench-2024: A Challenging, Dynamic, Complementary, Multilingual Benchmark and Underlying Flexible Framework for LLMs as Multi-Action Agents [19.989503513817095]
大きな言語モデルは、特定の能力を探索する会話ゲームに"セルフプレイ"するよう促すことができる。本稿では,このようなゲームプレイ環境を構築するためのフレームワークの1つを取り上げ,その有効性を評価機器として検証する。
論文参考訳（メタデータ） (2024-05-31T14:43:31Z)
Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models [0.0]
我々は,Othelloゲーム上でGPTモデルをトレーニングし,ボード状態の内部表現を学習した。この作業をチェスのより複雑な領域に拡張し、実際のゲームでトレーニングし、モデルの内部表現を調査します。 Li et al. の以前の合成データセットアプローチとは異なり、我々の分析では、このモデルがプレイヤースキルのような潜伏変数を推定し、次のキャラクタをより正確に予測する方法も学んでいる。
論文参考訳（メタデータ） (2024-03-21T18:53:23Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文参考訳（メタデータ） (2023-10-23T05:52:09Z)
SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文参考訳（メタデータ） (2023-05-24T18:14:35Z)
Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文参考訳（メタデータ） (2023-03-23T17:43:17Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)
Improving Chess Commentaries by Combining Language Models with Symbolic Reasoning Engines [31.87260568733666]
本稿では, シンボリック推論エンジンと制御可能な言語モデルを組み合わせることで, チェスの解説を生成する方法について述べる。我々は,従来の基準よりも人間の判断に好まれる注釈を生成することを実証するために実験を行った。
論文参考訳（メタデータ） (2022-12-15T23:38:31Z)
Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文参考訳（メタデータ） (2021-02-26T01:16:23Z)
Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2020-10-22T12:40:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。