論文の概要: Frog Soup: Zero-Shot, In-Context, and Sample-Efficient Frogger Agents
- arxiv url: http://arxiv.org/abs/2505.03947v1
- Date: Tue, 06 May 2025 19:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.904677
- Title: Frog Soup: Zero-Shot, In-Context, and Sample-Efficient Frogger Agents
- Title(参考訳): フロッグスープ:ゼロショット、インコンテキスト、サンプル効率の良いフロッガーエージェント
- Authors: Xiang Li, Yiyang Hao, Doug Fulop,
- Abstract要約: ドメイン外RLポストトレーニングによる最新の推論LLMは、ゼロショット設定下でFroggerと呼ばれる挑戦的なAtariゲームを実行することができることを示す。
そこで本研究では,LLMの性能に及ぼす文脈内学習と推論の量の影響について検討する。
- 参考スコア(独自算出の注目度): 5.5226894932814155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the primary aspirations in reinforcement learning research is developing general-purpose agents capable of rapidly adapting to and mastering novel tasks. While RL gaming agents have mastered many Atari games, they remain slow and costly to train for each game. In this work, we demonstrate that latest reasoning LLMs with out-of-domain RL post-training can play a challenging Atari game called Frogger under a zero-shot setting. We then investigate the effect of in-context learning and the amount of reasoning effort on LLM performance. Lastly, we demonstrate a way to bootstrap traditional RL method with LLM demonstrations, which significantly improves their performance and sample efficiency. Our implementation is open sourced at https://github.com/AlienKevin/frogger.
- Abstract(参考訳): 強化学習研究における主要な願望の1つは、新しいタスクに迅速に適応し、習得できる汎用エージェントを開発することである。
RLゲームエージェントは、多くのAtariゲームをマスターしてきたが、各ゲームのためのトレーニングには遅くてコストがかかる。
本研究では,ドメイン外RLポストトレーニングによる最新の理学療法が,ゼロショット設定下でFroggerと呼ばれる挑戦的なAtariゲームをプレイできることを実証する。
そこで本研究では,LLMの性能に及ぼす文脈内学習と推論の量の影響について検討する。
最後に,従来の RL 法を LLM デモでブートストラップする方法を示す。
私たちの実装はhttps://github.com/AlienKevin/frogger.comで公開されています。
関連論文リスト
- LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents [10.632179121247466]
LLMエージェントを用いた一般的なゲームテストフレームワークを提案し、広くプレイされている戦略ゲームであるWordleとSlay the Spireでテストする。
LLMは平均的な人間プレイヤーほど動作しないかもしれないが、単純で汎用的なプロンプト技術によって誘導される場合、人間のプレイヤーが示す困難さと統計的に有意で強い相関関係を示す。
このことから, LLM は開発過程におけるゲーム難易度測定に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:40:43Z) - Atari-GPT: Benchmarking Multimodal Large Language Models as Low-Level Policies in Atari Games [2.2648566044372416]
本稿では,アタリゲームにおける低レベルポリシーとして,マルチモーダル LLM の創発的能力をテストするための新しいベンチマークを提案する。
本研究では,従来のRLエージェント,ヒトプレイヤー,ランダムエージェントに対するマルチモーダルLLMの性能評価を行った。
以上の結果から,これらのマルチモーダル LLM はゼロショットの低レベルポリシーをまだ実現できていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-28T17:08:56Z) - HackAtari: Atari Learning Environments for Robust and Continual Reinforcement Learning [20.034972354302788]
強化学習(Reinforcement Learning, RL)は、新奇性を探索の手段として活用するが、エージェントはしばしば新しい状況を扱うのに苦労する。
我々は最も一般的なRLベンチマークであるAtari Learning Environmentに制御ノベルティを導入したフレームワークであるHackAtariを提案する。
論文 参考訳(メタデータ) (2024-06-06T12:17:05Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Explaining Deep Reinforcement Learning Agents In The Atari Domain
through a Surrogate Model [78.69367679848632]
深部RLエージェントの説明を導出するための軽量で効果的な手法について述べる。
提案手法は,RLエージェントの画素ベース入力から解釈可能な知覚的入力表現への変換に依存する。
次に、ターゲットの深いRLエージェントの挙動を再現するために、それ自身解釈可能な代理モデルを訓練する。
論文 参考訳(メタデータ) (2021-10-07T05:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。