論文の概要: Empowering LLMs in Decision Games through Algorithmic Data Synthesis
- arxiv url: http://arxiv.org/abs/2503.13980v1
- Date: Tue, 18 Mar 2025 07:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:09.870544
- Title: Empowering LLMs in Decision Games through Algorithmic Data Synthesis
- Title(参考訳): アルゴリズムデータ合成による決定ゲームにおけるLLMの活用
- Authors: Haolin Wang, Xueyan Li, Yazhe Niu, Shuai Hu, Hongsheng Li,
- Abstract要約: 意思決定ゲームは、大規模言語モデルの推論能力を評価し、強化するための理想的なサンドボックスとして機能する。
データ合成戦略を設計し、2つの古典ゲーム、DoudizhuとGoから広範囲のオフラインデータセットをキュレートする。
我々は、このデータをLLMトレーニングに効果的に組み込むための一連の技術を開発し、その結果、Mastermind-Dou と Mastermind-Go という2つの新しいエージェントを生み出した。
- 参考スコア(独自算出の注目度): 29.128280701799074
- License:
- Abstract: Large Language Models (LLMs) have exhibited impressive capabilities across numerous domains, yet they often struggle with complex reasoning and decision-making tasks. Decision-making games, which inherently require multifaceted reasoning logic, serve as ideal sandboxes for evaluating and enhancing the reasoning abilities of LLMs. In this work, we first explore whether LLMs can master complex decision-making games through targeted post-training. To this end, we design data synthesis strategies and curate extensive offline datasets from two classic games, Doudizhu and Go. We further develop a suite of techniques to effectively incorporate this data into LLM training, resulting in two novel agents: Mastermind-Dou and Mastermind-Go. Our experimental results demonstrate that these Mastermind LLMs achieve competitive performance in their respective games. Additionally, we explore whether integrating decision-making data can enhance the general reasoning abilities of LLMs. Our findings suggest that such post-training improves certain aspects of reasoning, providing valuable insights for optimizing LLM data collection and synthesis strategies.
- Abstract(参考訳): 大きな言語モデル(LLM)は多くのドメインにまたがって印象的な機能を示してきたが、複雑な推論や意思決定のタスクに悩まされることが多い。
本質的には多面的推論論理を必要とする意思決定ゲームは、LLMの推論能力を評価し拡張するための理想的なサンドボックスとして機能する。
本研究は,LLMが対象のポストトレーニングを通じて複雑な意思決定ゲームにマスターできるかどうかを,まず検討する。
この目的のために、我々はデータ合成戦略を設計し、2つの古典ゲームであるDoudizhuとGoから広範囲のオフラインデータセットをキュレートする。
我々はさらに、このデータをLLMトレーニングに効果的に組み込むための一連の技術を開発し、その結果、Mastermind-Dou と Mastermind-Go という2つの新しいエージェントを生み出した。
実験結果から,これらのマスターミンド LLM は,それぞれのゲームにおいて競争性能を発揮することが示された。
さらに、意思決定データの統合がLLMの一般的な推論能力を向上するかどうかについても検討する。
以上の結果から,このようなポストトレーニングは推論の特定の側面を改善し,LLMデータ収集と合成戦略の最適化に有用な洞察を与える可能性が示唆された。
関連論文リスト
- Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - Dynamic Ensemble Reasoning for LLM Experts [35.774197263383996]
本研究では,動的入力を前提とした複数のLLMエキスパートの強みを統合するために,DERと呼ばれる動的アンサンブル推論パラダイムを提案する。
提案手法では,最先端のベースラインに比べて計算資源が少ないため,性能が向上する。
論文 参考訳(メタデータ) (2024-12-10T12:05:56Z) - Game-theoretic LLM: Agent Workflow for Negotiation Games [30.83905391503607]
本稿では,大規模言語モデル(LLM)の戦略的意思決定文脈における合理性について検討する。
LLMの推論と意思決定を導く複数のゲーム理論を設計する。
この発見は、より堅牢で戦略的に健全なAIエージェントの開発に影響を及ぼす。
論文 参考訳(メタデータ) (2024-11-08T22:02:22Z) - LLM-PySC2: Starcraft II learning environment for Large Language Models [16.918044347226104]
本稿では,Large Language Models(LLM)に基づく意思決定手法の開発を支援する新しい環境を提案する。
この環境はStarCraft IIのアクションスペース、マルチモーダルな観察インタフェース、構造化されたゲーム知識データベースを提供する最初のものである。
論文 参考訳(メタデータ) (2024-11-08T06:04:22Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。