論文の概要: FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games
- arxiv url: http://arxiv.org/abs/2509.01052v1
- Date: Mon, 01 Sep 2025 01:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.518615
- Title: FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games
- Title(参考訳): FlashAdventure: クロスアドベンチャーゲームにおける完全なストーリーアークを解決するGUIエージェントのベンチマーク
- Authors: Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim,
- Abstract要約: 我々はFlashAdventureを紹介した。これは、フルストーリーのアーク補完をテストするために設計された、34のFlashベースのアドベンチャーゲームのベンチマークである。
また,ゲームプレイの自動評価装置であるCUA-as-a-Judgeと,長期記憶を利用したエージェントフレームワークであるCOASTを提案する。
実験では、現在のGUIエージェントがフルストーリーのアークに苦しむのに対して、COASTは観察と振る舞いのギャップを埋めることでマイルストーンの完了を改善する。
- 参考スコア(独自算出の注目度): 56.81554611870848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI agents powered by LLMs show promise in interacting with diverse digital environments. Among these, video games offer a valuable testbed due to their varied interfaces, with adventure games posing additional challenges through complex, narrative-driven interactions. Existing game benchmarks, however, lack diversity and rarely evaluate agents on completing entire storylines. To address this, we introduce FlashAdventure, a benchmark of 34 Flash-based adventure games designed to test full story arc completion and tackle the observation-behavior gap: the challenge of remembering and acting on earlier gameplay information. We also propose CUA-as-a-Judge, an automated gameplay evaluator, and COAST, an agentic framework leveraging long-term clue memory to better plan and solve sequential tasks. Experiments show current GUI agents struggle with full story arcs, while COAST improves milestone completion by bridging the observation-behavior gap. Nonetheless, a marked discrepancy between humans and best-performing agents warrants continued research efforts to narrow this divide.
- Abstract(参考訳): LLMを利用したGUIエージェントは、多様なデジタル環境との対話を約束する。
これらの中、ビデオゲームは様々なインターフェースのために貴重なテストベッドを提供しており、冒険ゲームは複雑な物語駆動の相互作用を通じてさらなる課題を提起している。
しかし、既存のゲームベンチマークには多様性がなく、ストーリーライン全体を完成させるエージェントを評価することはめったにない。
この問題を解決するために、FlashAdventureという34のFlashベースのアドベンチャーゲームのベンチマークを紹介します。
また,自動ゲームプレイ評価装置であるCUA-as-a-Judgeと,長期手がかりメモリを活用したエージェントフレームワークであるCOASTを提案する。
実験では、現在のGUIエージェントがフルストーリーのアークに苦しむのに対して、COASTは観察と振る舞いのギャップを埋めることでマイルストーンの完了を改善する。
それでも、人間と最高のパフォーマンスのエージェントの令状との間に顕著な相違は、この分割を狭める研究努力を継続した。
関連論文リスト
- You Have Thirteen Hours in Which to Solve the Labyrinth: Enhancing AI Game Masters with Function Calling [35.721053667746716]
本稿では,テーブルトップロールプレイングゲーム "Jim Henson's Labyrinth: The Adventure Game" のコンテキストにおける関数呼び出しを活用することで,AIゲームマスタを強化する新たなアプローチを提案する。
本手法は,AIゲームマスタの物語的品質と状態更新の整合性の向上を示す関数を通じてゲーム固有の制御を統合することを含む。
論文 参考訳(メタデータ) (2024-09-11T02:03:51Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Preference-conditioned Pixel-based AI Agent For Game Testing [1.5059676044537105]
環境とのインタラクションによって学習するゲームテストAIエージェントは、これらの課題を軽減する可能性がある。
本稿では,ユーザの好みに応じて設定された環境を探索しながら,主に画素ベースの状態観測に依存するエージェント設計を提案する。
実AAAゲームにおける多くの側面に類似した複雑なオープンワールド環境において、調査対象とテスト実行品質に対して、我々のエージェントは、最先端の画素ベースのゲームテストエージェントよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-08-18T04:19:36Z) - Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Go-Explore Complex 3D Game Environments for Automated Reachability
Testing [4.322647881761983]
本稿では,強力な探索アルゴリズムであるGo-Exploreに基づいて,シミュレーションされた3次元環境における到達性バグを対象とするアプローチを提案する。
Go-Exploreはマップ全体でユニークなチェックポイントを保存し、そこから探索する有望なチェックポイントを特定する。
我々のアルゴリズムは1台のマシンで10時間以内に1.5km x 1.5kmのゲーム世界を完全にカバーできる。
論文 参考訳(メタデータ) (2022-09-01T16:31:37Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。