論文の概要: Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning
- arxiv url: http://arxiv.org/abs/2509.25052v1
- Date: Mon, 29 Sep 2025 17:02:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.150947
- Title: Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning
- Title(参考訳): Cogito, Ergo Ludo: 推論と計画によって遊び方を学ぶエージェント
- Authors: Sai Wang, Yu Wu, Zhongwen Xu,
- Abstract要約: 我々は,環境の仕組みとその戦略を明示的かつ言語ベースで理解する新しいエージェントアーキテクチャであるCogito, ergo ludo (CEL)を紹介した。
CELは相互作用とリフレクションのサイクルで動作し、ルール誘導と戦略とプレイブック要約という2つの同時学習プロセスを実行する。
我々は,多様なグリッドワールドタスク(マインズウィーパー,フリーズレーク,ソコバン)でCELを評価し,CELエージェントが,ルールを自律的に発見し,スパース報酬から効果的なポリシーを開発することで,これらのゲームを習得することに成功したことを示す。
- 参考スコア(独自算出の注目度): 14.263118871262941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pursuit of artificial agents that can learn to master complex environments has led to remarkable successes, yet prevailing deep reinforcement learning methods often rely on immense experience, encoding their knowledge opaquely within neural network weights. We propose a different paradigm, one in which an agent learns to play by reasoning and planning. We introduce Cogito, ergo ludo (CEL), a novel agent architecture that leverages a Large Language Model (LLM) to build an explicit, language-based understanding of its environment's mechanics and its own strategy. Starting from a tabula rasa state with no prior knowledge (except action set), CEL operates on a cycle of interaction and reflection. After each episode, the agent analyzes its complete trajectory to perform two concurrent learning processes: Rule Induction, where it refines its explicit model of the environment's dynamics, and Strategy and Playbook Summarization, where it distills experiences into an actionable strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e., Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent successfully learns to master these games by autonomously discovering their rules and developing effective policies from sparse rewards. Ablation studies confirm that the iterative process is critical for sustained learning. Our work demonstrates a path toward more general and interpretable agents that not only act effectively but also build a transparent and improving model of their world through explicit reasoning on raw experience.
- Abstract(参考訳): 複雑な環境をマスターするために学習できる人工エージェントの追求は、顕著な成功につながったが、深い強化学習手法は、しばしば膨大な経験に依存し、ニューラルネットワークの重みの中でその知識を不透明に符号化する。
そこで我々は,エージェントが推論と計画によって遊び方を学ぶ,異なるパラダイムを提案する。
本稿では,Large Language Model (LLM) を利用した新しいエージェントアーキテクチャであるCogitoを紹介する。
タブララザ状態から(アクションセットを除く)事前の知識のない状態から始まり、CELは相互作用と反射のサイクルで動作する。
各エピソードの後、エージェントはその完全な軌跡を分析し、2つの同時学習プロセスを実行する:ルールインジェクション(ルールインジェクション)、環境のダイナミクスの明示的なモデルの改良、戦略とプレイブックの要約(Strategy and Playbook Summarization)。
我々は,多様なグリッドワールドタスク(マインズウィーパー,フリーズレーク,ソコバン)でCELを評価し,CELエージェントが,ルールを自律的に発見し,スパース報酬から効果的なポリシーを開発することで,これらのゲームを習得することに成功したことを示す。
アブレーション研究は、反復的なプロセスが持続的な学習に重要であることを証明している。
我々の研究は、効果的に行動するだけでなく、生体験を明示的に推論することで、その世界の透明で改善されたモデルを構築する、より汎用的で解釈可能なエージェントへの道を示す。
関連論文リスト
- Kolb-Based Experiential Learning for Generalist Agents with Human-Level Kaggle Data Science Performance [81.05882480184587]
本稿では,自律エージェントに対するVygotskyのZPDを用いて,Kolbの学習サイクルの計算フレームワークを提案する。
Agent Kは、KolbとVygotskyにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
金9個、銀8個、銅12個で、メダル獲得競争で金4個、銀4個を含む。エージェントKは、コルブとヴィーゴツキーにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
論文 参考訳(メタデータ) (2024-11-05T23:55:23Z) - Empowering Large Language Model Agents through Action Learning [85.39581419680755]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments [5.217870815854702]
本稿では,強化学習ポリシーを模倣するプログラム合成を提案する。
我々は,グリッド環境における概念学習に最先端のプログラム合成システムDreamCoderを適用した。
論文 参考訳(メタデータ) (2023-09-07T11:46:57Z) - Independent Learning in Stochastic Games [16.505046191280634]
動的環境におけるマルチエージェント学習のためのゲームモデルを提案する。
ゲームのためのシンプルで独立した学習力学の開発に焦点をあてる。
我々は最近提案したゼロサムゲームにおける収束を保証する単純かつ独立な学習力学について述べる。
論文 参考訳(メタデータ) (2021-11-23T09:27:20Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Learning intuitive physics and one-shot imitation using
state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。
このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。
エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文 参考訳(メタデータ) (2020-07-03T12:29:11Z) - Learning as Reinforcement: Applying Principles of Neuroscience for More
General Reinforcement Learning Agents [1.0742675209112622]
我々は、生物学的アルゴリズムの計算効率の良い抽象化を組み合わせることによって、実験神経科学の原理に基づいて構築されたアーキテクチャを実装する。
我々のアプローチは、スパイク刺激依存塑性の研究、短期記憶と長期記憶の遷移、および好奇心に対する様々な神経伝達物質の役割に着想を得たものである。
Neurons-in-a-Boxアーキテクチャは、完全に一般化可能な方法で学習することができ、一連の基準やアクションを明示的に最適化することなく、表現を構築し、適用するための効率的な方法を示す。
論文 参考訳(メタデータ) (2020-04-20T04:06:21Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。