論文の概要: Mastering Da Vinci Code: A Comparative Study of Transformer, LLM, and PPO-based Agents
- arxiv url: http://arxiv.org/abs/2506.12801v1
- Date: Sun, 15 Jun 2025 10:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.894801
- Title: Mastering Da Vinci Code: A Comparative Study of Transformer, LLM, and PPO-based Agents
- Title(参考訳): Da Vinci Codeのマスタリング: トランスフォーマー, LLM, PPOベースのエージェントの比較検討
- Authors: LeCheng Zhang, Yuanshi Wang, Haotian Shen, Xujie Wang,
- Abstract要約: 論理的推論と不完全な情報のゲームであるDa Vinci Codeは、人工知能に固有の課題を提示している。
本稿では,このゲームを習得する上で,様々なAIパラダイムの有効性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Da Vinci Code, a game of logical deduction and imperfect information, presents unique challenges for artificial intelligence, demanding nuanced reasoning beyond simple pattern recognition. This paper investigates the efficacy of various AI paradigms in mastering this game. We develop and evaluate three distinct agent architectures: a Transformer-based baseline model with limited historical context, several Large Language Model (LLM) agents (including Gemini, DeepSeek, and GPT variants) guided by structured prompts, and an agent based on Proximal Policy Optimization (PPO) employing a Transformer encoder for comprehensive game history processing. Performance is benchmarked against the baseline, with the PPO-based agent demonstrating superior win rates ($58.5\% \pm 1.0\%$), significantly outperforming the LLM counterparts. Our analysis highlights the strengths of deep reinforcement learning in policy refinement for complex deductive tasks, particularly in learning implicit strategies from self-play. We also examine the capabilities and inherent limitations of current LLMs in maintaining strict logical consistency and strategic depth over extended gameplay, despite sophisticated prompting. This study contributes to the broader understanding of AI in recreational games involving hidden information and multi-step logical reasoning, offering insights into effective agent design and the comparative advantages of different AI approaches.
- Abstract(参考訳): 論理的推論と不完全な情報のゲームであるDa Vinci Codeは、単純なパターン認識以上のニュアンスな推論を要求する、人工知能に固有の課題を提示している。
本稿では,このゲームを習得する上で,様々なAIパラダイムの有効性について検討する。
歴史的文脈が限定されたトランスフォーマーベースラインモデル,構造化プロンプトで案内される大規模言語モデル (LLM) エージェント (Gemini, DeepSeek, GPT 変種を含む) , 総合的なゲーム履歴処理にトランスフォーマーエンコーダを用いたPPOに基づくエージェント, の3つの異なるエージェントアーキテクチャを開発し評価する。
PPOベースのエージェントはより優れた勝利率(58.5\% \pm 1.0\%$)を示し、LLMのエージェントよりも大幅に上回っている。
本分析は, 複雑な帰納的課題に対する政策改善における深層強化学習の強み, 特に自己プレイから暗黙の戦略を学ぶ上での強みを浮き彫りにしている。
また,厳密なプロンプトにもかかわらず,厳密な論理的一貫性とゲームプレイに対する戦略的深度を維持する上での現在のLLMの機能と限界についても検討する。
この研究は、隠れ情報と多段階論理推論を含むレクリエーションゲームにおけるAIのより広範な理解に寄与し、効果的なエージェント設計と異なるAIアプローチの比較優位性に関する洞察を提供する。
関連論文リスト
- The Influence of Human-inspired Agentic Sophistication in LLM-driven Strategic Reasoners [3.5083201638203154]
人工推論器の性能形成におけるエージェント的高度化の役割を評価する。
我々は3つのエージェント設計をベンチマークした: 単純なゲーム理論モデル、構造化されていないLLM-as-agentモデル、従来のエージェントフレームワークに統合されたLLM。
我々の分析は、25のエージェント構成にまたがる2000以上の推論サンプルを網羅し、人間にインスパイアされた認知構造が、LLMエージェントと人間の戦略的行動との整合性を高めることを示唆している。
論文 参考訳(メタデータ) (2025-05-14T13:51:24Z) - Reinforcement Learning Environment with LLM-Controlled Adversary in D&D 5th Edition Combat [0.0]
この研究では、より小さなエージェントにDeep Q-Networks(DQN)を採用し、戦略的AI開発のためのテストベッドを作成している。
高度な言語モデルをRLフレームワークに統合し、戦略的意思決定プロセスの強化に成功しました。
論文 参考訳(メタデータ) (2025-03-19T22:48:20Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Approximating Human Strategic Reasoning with LLM-Enhanced Recursive Reasoners Leveraging Multi-agent Hypergames [3.5083201638203154]
我々は、洗練された推論者に適したロールベースのマルチエージェント戦略相互作用フレームワークを実装した。
我々は,最新のLCMの推論能力を評価するために,ワンショット2プレーヤ美容コンテストを用いた。
実験の結果,人間行動の近似と最適解への到達の両面で,人工推論がベースラインモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-11T10:37:20Z) - Game-theoretic LLM: Agent Workflow for Negotiation Games [30.83905391503607]
本稿では,大規模言語モデル(LLM)の戦略的意思決定文脈における合理性について検討する。
LLMの推論と意思決定を導く複数のゲーム理論を設計する。
この発見は、より堅牢で戦略的に健全なAIエージェントの開発に影響を及ぼす。
論文 参考訳(メタデータ) (2024-11-08T22:02:22Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。