論文の概要: Merge and Conquer: Evolutionarily Optimizing AI for 2048
- arxiv url: http://arxiv.org/abs/2510.20205v1
- Date: Thu, 23 Oct 2025 04:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.333144
- Title: Merge and Conquer: Evolutionarily Optimizing AI for 2048
- Title(参考訳): Merge and Conquer: 2048年のAIの進化的最適化
- Authors: Maggie Bai, Ava Kim Cohen, Eleanor Koss, Charlie Lichtenbaum,
- Abstract要約: 本稿では,AIを最適化してゲーム2048を解くための進化的学習手法について検討する。
我々は2エージェントメタプロンプティングシステムと1エージェントシステムという2つの異なるシステムを実装した。
本研究は,非決定論的環境におけるAI性能向上における進化的改善技術の可能性を示すものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing artificial intelligence (AI) for dynamic environments remains a fundamental challenge in machine learning research. In this paper, we examine evolutionary training methods for optimizing AI to solve the game 2048, a 2D sliding puzzle. 2048, with its mix of strategic gameplay and stochastic elements, presents an ideal playground for studying decision-making, long-term planning, and dynamic adaptation. We implemented two distinct systems: a two-agent metaprompting system where a "thinker" large language model (LLM) agent refines gameplay strategies for an "executor" LLM agent, and a single-agent system based on refining a value function for a limited Monte Carlo Tree Search. We also experimented with rollback features to avoid performance degradation. Our results demonstrate the potential of evolutionary refinement techniques in improving AI performance in non-deterministic environments. The single-agent system achieved substantial improvements, with an average increase of 473.2 points per cycle, and with clear upward trends (correlation $\rho$=0.607) across training cycles. The LLM's understanding of the game grew as well, shown in its development of increasingly advanced strategies. Conversely, the two-agent system did not garner much improvement, highlighting the inherent limits of meta-prompting.
- Abstract(参考訳): 動的環境に対する人工知能(AI)の最適化は、機械学習研究における根本的な課題である。
本稿では,AIを最適化して2次元スライディングパズルである2048を解くための進化的学習手法について検討する。
2048年、戦略的なゲームプレイと確率的要素が混在し、意思決定、長期計画、動的適応を研究するための理想的な場を提供する。
エージェントが「実行者」LLMエージェントのゲームプレイ戦略を洗練する2エージェントメタプロンプトシステムと、限定されたモンテカルロ木探索の値関数の精製に基づく単一エージェントシステムとを実装した。
また、性能劣化を避けるためにロールバック機能の実験も行いました。
本研究は,非決定論的環境におけるAI性能向上における進化的改善技術の可能性を示すものである。
シングルエージェントシステムは1サイクルあたり平均473.2ポイント増加し、トレーニングサイクル全体での上昇傾向(相関$\rho$=0.607)が明確になった。
LLMのゲームに対する理解も成長し、より進んだ戦略の開発に寄与した。
逆に、2エージェントシステムはあまり改善されず、メタプロンプティングの本質的な限界を強調した。
関連論文リスト
- AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - Agents of Change: Self-Evolving LLM Agents for Strategic Planning [28.172006841163938]
HexMachinaは、環境発見と戦略改善を分離する継続的学習マルチエージェントシステムである。
制御されたカタナトロン実験では、HexMachinaはスクラッチから学び、最強の人造ベースラインを上回るプレイヤーを進化させる。
論文 参考訳(メタデータ) (2025-06-05T05:45:24Z) - Dyna-Think: Synergizing Reasoning, Acting, and World Model Simulation in AI Agents [57.35214204211501]
本稿では,AIエージェントの性能向上のための推論と行動を伴う内的世界モデルとプランニングを統合した思考フレームワークDyna-Thinkを提案する。
DITは、R1の思考プロセスを再構築し、提案された(計画された)行動に関連する世界モデルシミュレーションの実行に集中し、この再構成データを用いてポリシーを訓練する。
DDTは2段階のトレーニングプロセスを使用して、まず状態予測や批判生成といった目的を通じてエージェントの世界モデリング能力を改善し、次にポリシートレーニングを通じてエージェントのアクションを改善する。
論文 参考訳(メタデータ) (2025-05-31T00:10:18Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - MetaScale: Test-Time Scaling with Evolving Meta-Thoughts [51.35594569020857]
実験の結果、MetaScaleは標準推論アプローチよりも一貫して優れています。
METASCALEは、サンプリング予算を増やしてより効果的にスケールし、より構造化された専門家レベルのレスポンスを生成する。
論文 参考訳(メタデータ) (2025-03-17T17:59:54Z) - First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Spatiotemporal Agent Detection 2024 [12.952512012601874]
トラック1のタスクはエージェント検出であり、連続したビデオフレーム内のエージェントのためのエージェント用の「エージェントチューブ」を構築することを目的としている。
私たちのソリューションは、超小型オブジェクト、低照度、不均衡、きめ細かい分類など、このタスクにおける課題に焦点を当てています。
ROAD++ Challenge 2024のトラック1のテストセットで最初にランク付けし、平均30.82%の動画mAPを達成した。
論文 参考訳(メタデータ) (2024-10-30T14:52:43Z) - Mastering the Digital Art of War: Developing Intelligent Combat Simulation Agents for Wargaming Using Hierarchical Reinforcement Learning [0.0]
対象とする観察抽象化、マルチモデル統合、ハイブリッドAIフレームワーク、階層的な強化学習フレームワークなど、包括的なアプローチを提案する。
線形空間減衰を用いた局所的な観測抽象化は,RL問題を単純化し,計算効率を向上し,従来の大域的観測法よりも優れた有効性を示す。
我々のハイブリッドAIフレームワークは、スクリプトエージェントとRLを同期させ、高レベルの決定にRLを、低レベルのタスクにスクリプトエージェントを活用し、適応性、信頼性、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-08-23T18:50:57Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Meta-Value Learning: a General Framework for Learning with Learning
Awareness [1.4323566945483497]
メタバリューによって測定された長期的展望によって共同政策を判断することを提案する。
最適化のメタゲームにQラーニングの形式を適用し、ポリシー更新の連続的な行動空間を明示的に表現する必要がないようにする。
論文 参考訳(メタデータ) (2023-07-17T21:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。