論文の概要: Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games
- arxiv url: http://arxiv.org/abs/2510.26298v1
- Date: Thu, 30 Oct 2025 09:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.739526
- Title: Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games
- Title(参考訳): エージェントコンカヤWebは可能か? WebゲームにおけるChatGPT Atlas Agentのフロンティアを探る
- Authors: Jingran Zhang, Ning Li, Justin Cui,
- Abstract要約: ChatGPT AtlasはWebページを分析し、ユーザの意図を処理し、ブラウザから直接カーソルとキーボード入力を実行することができる。
テストシナリオとしてブラウザベースのゲームを用いて,AtlasのWebインタラクション機能を早期に評価する。
以上の結果から,AtlasはSudokuのような論理的推論タスクで強く機能するが,正確なタイミングとモータ制御を必要とするリアルタイムゲームでは,かなり苦労していることがわかった。
- 参考スコア(独自算出の注目度): 7.901354499277293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: OpenAI's ChatGPT Atlas introduces new capabilities for web interaction, enabling the model to analyze webpages, process user intents, and execute cursor and keyboard inputs directly within the browser. While its capacity for information retrieval tasks has been demonstrated, its performance in dynamic, interactive environments remains less explored. In this study, we conduct an early evaluation of Atlas's web interaction capabilities using browser-based games as test scenarios, including Google's T-Rex Runner, Sudoku, Flappy Bird, and Stein.world. We employ in-game performance scores as quantitative metrics to assess performance across different task types. Our results show that Atlas performs strongly in logical reasoning tasks like Sudoku, completing puzzles significantly faster than human baselines, but struggles substantially in real-time games requiring precise timing and motor control, often failing to progress beyond initial obstacles. These findings suggest that while Atlas demonstrates capable analytical processing, there remain notable limitations in dynamic web environments requiring real-time interaction. The website of our project can be found at https://atlas-game-eval.github.io.
- Abstract(参考訳): OpenAIのChatGPT Atlasは、Webインタラクションの新機能を導入し、モデルがWebページを分析し、ユーザの意図を処理し、ブラウザ内でカーソルとキーボード入力を直接実行できるようにする。
情報検索タスクの能力は実証されているが、動的でインタラクティブな環境での性能はいまだに調査されていない。
本研究では、GoogleのT-Rex Runner、Sudoku、Flappy Bird、Stein.worldなど、ブラウザベースのゲームを使って、AtlasのWebインタラクション機能を早期に評価する。
ゲーム内パフォーマンススコアを定量的指標として使用して,タスクの種類によってパフォーマンスを評価する。
以上の結果から,Atlasはスドクのような論理的推論タスクにおいて,人間のベースラインよりもパズルをはるかに高速に解くことができるが,正確なタイミングと運動制御を必要とするリアルタイムゲームでは困難であり,初期障害を超えて進行しないことが多いことが示唆された。
これらの結果から,Atlasは解析処理の能力を示す一方で,リアルタイムなインタラクションを必要とする動的Web環境には注目すべき制限が残っていることが示唆された。
プロジェクトのWebサイトはhttps://atlas-game-eval.github.io.comにある。
関連論文リスト
- Game-Time: Evaluating Temporal Dynamics in Spoken Language Models [93.844257719952]
時間的能力を評価するためにGame-Time Benchmarkフレームワークを導入します。
多様なSLMモデルについて評価した結果,性能の相違が明らかとなった。
GameTime Benchmarkは、より時間的に認識された会話型AIに向けた将来の研究を導くための基盤を提供する。
論文 参考訳(メタデータ) (2025-09-30T15:23:39Z) - TextQuests: How Good are LLMs at Text-Based Video Games? [36.024745739590216]
TextQuestsは、Infocomのインタラクティブフィクションゲームスイートをベースにしたベンチマークである。
外部ツールの使用を前もって,自己完結型問題解決のためのエージェントの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2025-07-31T16:22:55Z) - WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z) - WebWalker: Benchmarking LLMs in Web Traversal [64.48425443951749]
WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。
本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-01-13T18:58:07Z) - Steward: Natural Language Web Automation [19.301371856154965]
大規模言語モデル(LLM)は、AIアシスタントの基盤として機能する優れた能力を示している。
我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。
本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
論文 参考訳(メタデータ) (2024-09-23T18:06:32Z) - AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? [50.36826943689364]
言語エージェントがWeb上で現実的で時間を要するタスクを実行できるかどうかを調査する。
自動評価が可能な214の現実的なタスクからなる新しいベンチマークであるAssistantBenchを紹介する。
我々は,AssistantBenchが,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにすることを発見した。
論文 参考訳(メタデータ) (2024-07-22T15:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。