論文の概要: OpenApps: Simulating Environment Variations to Measure UI-Agent Reliability
- arxiv url: http://arxiv.org/abs/2511.20766v1
- Date: Tue, 25 Nov 2025 19:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.814153
- Title: OpenApps: Simulating Environment Variations to Measure UI-Agent Reliability
- Title(参考訳): OpenApps: UI-Agentの信頼性を計測するために環境変動をシミュレートする
- Authors: Karen Ullrich, Jingtong Su, Claudia Shi, Arjun Subramonian, Amir Bar, Ivan Evtimov, Nikolaos Tsilivis, Randall Balestriero, Julia Kempe, Mark Ibrahim,
- Abstract要約: 自律的なUIエージェントの約束を実現する上では、信頼性が重要です。
6つのアプリを備えた軽量なオープンソースエコシステムであるOpenAppsを開発しています。
我々は、7つの主要なマルチモーダルエージェントの信頼性を研究するために、1万以上の独立した評価を実行する。
- 参考スコア(独自算出の注目度): 49.99934595922838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliability is key to realizing the promise of autonomous UI-Agents, multimodal agents that directly interact with apps in the same manner as humans, as users must be able to trust an agent to complete a given task. Current evaluations rely on fixed environments, often clones of existing apps, which are limited in that they can only shed light on whether or how often an agent can complete a task within a specific environment. When deployed however, agents are likely to encounter variations in app design and content that can affect an agent's ability to complete a task. To address this blind spot of measuring agent reliability across app variations, we develop OpenApps, a light-weight open-source ecosystem with six apps (messenger, calendar, maps, etc.) that are configurable in appearance and content. OpenApps requires just a single CPU to run, enabling easy generation and deployment of thousands of versions of each app. Specifically, we run more than 10,000 independent evaluations to study reliability across seven leading multimodal agents. We find that while standard reliability within a fixed app is relatively stable, reliability can vary drastically when measured across app variations. Task success rates for many agents can fluctuate by more than $50\%$ across app variations. For example, Kimi-VL-3B's average success across all tasks fluctuates from $63\%$ to just $4\%$ across app versions. We also find agent behaviors such as looping or hallucinating actions can differ drastically depending on the environment configuration. These initial findings highlight the importance of measuring reliability along this new dimension of app variations. OpenApps is available at https://facebookresearch.github.io/OpenApps/
- Abstract(参考訳): 信頼性は、ユーザーが与えられたタスクを完了するためにエージェントを信頼する必要があるため、人間と同じ方法でアプリと直接対話する、自律的なUIエージェントであるマルチモーダルエージェントの約束を実現するための鍵である。
現在の評価は、しばしば既存のアプリのクローンである固定された環境に依存しており、エージェントが特定の環境内でタスクを完了できる頻度にのみ光を当てることが制限されている。
しかし、デプロイされると、エージェントは、タスクを完了させるエージェントの能力に影響を与える可能性のあるアプリ設計やコンテンツの変化に遭遇する可能性が高い。
アプリのバリエーションによってエージェントの信頼性を測定するこの盲点に対処するため、私たちは、外観とコンテンツで設定可能な6つのアプリ(メッセンジャー、カレンダ、マップなど)を備えた軽量のオープンソースエコシステムであるOpenAppsを開発しました。
OpenAppsは1つのCPUで実行でき、各アプリの数千バージョンを簡単に生成およびデプロイできる。
具体的には、7つの主要なマルチモーダルエージェントにまたがって1万以上の独立した評価を行い、信頼性を調査する。
固定アプリ内の標準的な信頼性は比較的安定しているが、アプリのさまざまなバリエーションを測定すると、信頼性が大きく変化する可能性がある。
多くのエージェントのタスク成功率は、アプリのバリエーションによって50\%以上変動する。
例えば、すべてのタスクにおけるKim-VL-3Bの平均的な成功は、アプリケーションバージョン全体で63\%から4\%に変動します。
また,ループや幻覚行動などのエージェントの挙動は,環境構成によって大きく異なる場合がある。
これらの最初の発見は、新しいアプリのバリエーションの次元に沿って信頼性を測定することの重要性を強調した。
OpenAppsはhttps://facebookresearch.github.io/OpenApps/で入手できる。
関連論文リスト
- AppSelectBench: Application-Level Tool Selection Benchmark [57.03660843195562]
AppSelectBenchは、エージェント(CUA)を使用したコンピュータでのアプリケーション選択を評価するためのベンチマークである。
これには、現実的で多様性があり、セマンティックに根ざしたユーザ意図を大規模に生成する、新しいユーザタスク生成パイプラインが含まれている。
これには10万以上の現実的で多様性があり、セマンティックなユーザータスクが含まれます。
論文 参考訳(メタデータ) (2025-11-25T06:06:17Z) - The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution [86.4588675093384]
Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。
このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。
Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
論文 参考訳(メタデータ) (2025-10-29T17:32:49Z) - Coding Agents with Multimodal Browsing are Generalist Problem Solvers [48.938445118630284]
OpenHands-Versaは、控えめな多くの汎用ツールで構築された汎用AIエージェントである。
既存の最先端マルチエージェントシステムは、ターゲットドメインを超えて一般化できないことを示す。
論文 参考訳(メタデータ) (2025-06-03T15:50:55Z) - CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation [70.3224918173672]
CowPilotは、自律的および人間とエージェントの協調的なWebナビゲーションをサポートするフレームワークである。
エージェントが次のステップを提案することによって、人間が実行しなければならないステップの数を減らすと同時に、ユーザが一時停止、拒否、代替アクションを取ることができる。
CowPilotは、Webサイト間でのデータ収集とエージェント評価のための便利なツールとして機能する。
論文 参考訳(メタデータ) (2025-01-28T00:56:53Z) - AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents [44.16450035387395]
AppWorldは高品質な実行環境(60K行のコード)で、毎日9つのアプリが457のAPIを通じて動作可能である。
$textbfAppWorld Benchmark$ (40K行のコード)は、750の自然で多様な自律エージェントタスクからなるスイートである。
論文 参考訳(メタデータ) (2024-07-26T17:55:45Z) - $τ$-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains [43.43344028212623]
$tau$-benchは、ユーザと言語エージェント間の動的会話をエミュレートするベンチマークである。
我々は、会話の最後にデータベースの状態と注釈付きゴール状態を比較する、効率的で忠実な評価プロセスを採用する。
論文 参考訳(メタデータ) (2024-06-17T19:33:08Z) - AppAgent: Multimodal Agents as Smartphone Users [23.318925173980446]
我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。
エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。
エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
論文 参考訳(メタデータ) (2023-12-21T11:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。