論文の概要: DigiData: Training and Evaluating General-Purpose Mobile Control Agents
- arxiv url: http://arxiv.org/abs/2511.07413v1
- Date: Mon, 10 Nov 2025 18:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.432307
- Title: DigiData: Training and Evaluating General-Purpose Mobile Control Agents
- Title(参考訳): DigiData: 汎用移動制御エージェントの訓練と評価
- Authors: Yuxuan Sun, Manchen Wang, Shengyi Qian, William R. Wong, Eric Gan, Pierluca D'Oro, Alejandro Castillejo Munoz, Sneha Silwal, Pedro Matias, Nitin Kamra, Satwik Kottur, Nick Raines, Xuanyi Zhao, Joy Chen, Joseph Greer, Andrea Madotto, Allen Bolourchi, James Valori, Kevin Carlberg, Karl Ridgeway, Joseph Tighe,
- Abstract要約: モバイルコントロールエージェントのトレーニング用に設計された大規模で高品質で多様なマルチモーダルデータセットであるDigiDataを紹介した。
本稿では,実世界の複雑なタスクに対して,モバイル制御エージェントを評価するためのベンチマークであるDigiData-Benchを紹介する。
我々の貢献は、より直感的で効果的なヒューマンデバイスインタラクションを実現するために、モバイル制御エージェントの開発を著しく推進することを目的としている。
- 参考スコア(独自算出の注目度): 45.45640179729933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents capable of controlling user interfaces have the potential to transform human interaction with digital devices. To accelerate this transformation, two fundamental building blocks are essential: high-quality datasets that enable agents to achieve complex and human-relevant goals, and robust evaluation methods that allow researchers and practitioners to rapidly enhance agent performance. In this paper, we introduce DigiData, a large-scale, high-quality, diverse, multi-modal dataset designed for training mobile control agents. Unlike existing datasets, which derive goals from unstructured interactions, DigiData is meticulously constructed through comprehensive exploration of app features, resulting in greater diversity and higher goal complexity. Additionally, we present DigiData-Bench, a benchmark for evaluating mobile control agents on real-world complex tasks. We demonstrate that the commonly used step-accuracy metric falls short in reliably assessing mobile control agents and, to address this, we propose dynamic evaluation protocols and AI-powered evaluations as rigorous alternatives for agent assessment. Our contributions aim to significantly advance the development of mobile control agents, paving the way for more intuitive and effective human-device interactions.
- Abstract(参考訳): ユーザインタフェースを制御するAIエージェントは、デジタルデバイスとの人間のインタラクションを変革する可能性がある。
この変革を加速するためには、エージェントが複雑で人間関係の目標を達成することができる高品質なデータセットと、研究者と実践者がエージェントのパフォーマンスを迅速に向上できる堅牢な評価方法の2つの基本的なビルディングブロックが不可欠である。
本稿では,モバイル制御エージェントのトレーニング用に設計された大規模で高品質で多様なマルチモーダルデータセットであるDigiDataを紹介する。
構造化されていないインタラクションから目標を導き出す既存のデータセットとは異なり、DigiDataはアプリ機能の包括的な探索を通じて細心の注意を払って構築されている。
さらに,実世界の複雑なタスクに対して,モバイル制御エージェントを評価するためのベンチマークであるDigiData-Benchを提案する。
我々は,モバイル制御エージェントを確実に評価する上で,一般的なステップ精度の指標が不足していることを示し,これに対応するために,エージェント評価のための厳格な代替手段として,動的評価プロトコルとAIによる評価を提案する。
我々の貢献は、より直感的で効果的なヒューマンデバイスインタラクションを実現するために、モバイル制御エージェントの開発を著しく推進することを目的としている。
関連論文リスト
- What's the next frontier for Data-centric AI? Data Savvy Agents [71.76058707995398]
我々は、エージェントシステムの設計において、データに精通する能力が最優先すべきであると主張している。
本稿では,このビジョンを実現するための4つの重要な機能を提案する。プロアクティブデータ取得,ソフシフィケートデータ処理,インタラクティブテストデータ合成,連続的適応。
論文 参考訳(メタデータ) (2025-11-02T17:09:29Z) - LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [72.29426995154088]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。