論文の概要: Learning Game-Playing Agents with Generative Code Optimization
- arxiv url: http://arxiv.org/abs/2508.19506v1
- Date: Wed, 27 Aug 2025 01:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.464788
- Title: Learning Game-Playing Agents with Generative Code Optimization
- Title(参考訳): 生成コード最適化によるゲームプレイングエージェントの学習
- Authors: Zhiyi Kuang, Ryan Rong, YuCheng Yuan, Allen Nie,
- Abstract要約: 我々は,Pythonプログラムとしてポリシーを表現し,大規模言語モデル(LLM)を用いて洗練されるゲームプレイングエージェントを学習するための生成的最適化手法を提案する。
提案手法は意思決定方針を自己進化型コードとして扱い,現在の観察を入力として,ゲーム内アクションを出力として,エージェントが実行トレースや自然言語フィードバックを最小限の介入で自己改善することができる。
- 参考スコア(独自算出の注目度): 5.8375920147692115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a generative optimization approach for learning game-playing agents, where policies are represented as Python programs and refined using large language models (LLMs). Our method treats decision-making policies as self-evolving code, with current observation as input and an in-game action as output, enabling agents to self-improve through execution traces and natural language feedback with minimal human intervention. Applied to Atari games, our game-playing Python program achieves performance competitive with deep reinforcement learning (RL) baselines while using significantly less training time and much fewer environment interactions. This work highlights the promise of programmatic policy representations for building efficient, adaptable agents capable of complex, long-horizon reasoning.
- Abstract(参考訳): 本稿では,Pythonプログラムとしてポリシーを表現し,大規模言語モデル(LLM)を用いて洗練するゲームプレイングエージェントの学習のための生成的最適化手法を提案する。
提案手法は意思決定方針を自己進化型コードとして扱い,現在の観察を入力として,ゲーム内アクションを出力として,エージェントが実行トレースや自然言語フィードバックを最小限の介入で自己改善することができる。
ゲームプレイングPythonプログラムは,トレーニング時間を大幅に削減し,環境相互作用をはるかに少なくしながら,深層強化学習(RL)ベースラインと競合する性能を実現する。
この研究は、複雑で長期の推論が可能な効率的で適応可能なエージェントを構築するためのプログラム的なポリシー表現の約束を強調している。
関連論文リスト
- ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - Agents Play Thousands of 3D Video Games [26.290863972751428]
我々は、何千もの3Dビデオゲームをプレイできる人工知能エージェントを開発するための新しいフレームワーク、Portalを提示する。
意思決定問題を言語モデリングタスクに変換することで,大規模言語モデル(LLM)を利用して行動木を生成する。
当社のフレームワークでは,ルールベースのノードとニューラルネットワークコンポーネントを組み合わせたハイブリッドポリシ構造を導入し,高レベルの戦略的推論と高精度な低レベル制御を実現する。
論文 参考訳(メタデータ) (2025-03-17T16:42:34Z) - Autoverse: An Evolvable Game Language for Learning Robust Embodied Agents [2.624282086797512]
シングルプレイヤ2Dグリッドベースのゲームのための,進化可能なドメイン固有言語であるAutoverseを紹介する。
オープンエンデッドラーニング(OEL)アルゴリズムのスケーラブルなトレーニンググラウンドとしての利用を実証する。
論文 参考訳(メタデータ) (2024-07-05T02:18:02Z) - STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models [5.786039929801102]
インタラクティブなフィクションゲームのための既存の環境は、特定のスキルセットをマスターするためにRLエージェントを生成するのにドメイン固有または時間を要する。
本稿では,テキストベースのRLエージェントを自動生成ゲームでブートストラップし,目標環境の目標を達成するためのパフォーマンスと一般化能力を向上する,自己教師型RL,STARlingのための対話型環境を提案する。
論文 参考訳(メタデータ) (2024-06-09T18:07:47Z) - Policy Learning with a Language Bottleneck [65.99843627646018]
本稿では,AIエージェントが言語規則を生成可能なフレームワークであるPLLB(Language Bottleneck)について紹介する。
PLLBBは言語モデルによってガイドされる*ルール生成*ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ*アップデート*ステップとを代替する。
PLLBエージェントは、より解釈可能で一般化可能な振る舞いを学べるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments [5.217870815854702]
本稿では,強化学習ポリシーを模倣するプログラム合成を提案する。
我々は,グリッド環境における概念学習に最先端のプログラム合成システムDreamCoderを適用した。
論文 参考訳(メタデータ) (2023-09-07T11:46:57Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。