論文の概要: UINav: A Practical Approach to Train On-Device Automation Agents
- arxiv url: http://arxiv.org/abs/2312.10170v2
- Date: Tue, 2 Apr 2024 17:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 11:33:25.240557
- Title: UINav: A Practical Approach to Train On-Device Automation Agents
- Title(参考訳): UINav: デバイス上で自動化エージェントをトレーニングするための実践的アプローチ
- Authors: Wei Li, Fu-Lin Hsu, Will Bishop, Folawiyo Campbell-Ajala, Max Lin, Oriana Riva,
- Abstract要約: モバイル機器に適合する自動化エージェントをトレーニングするための,デモベースのアプローチであるUINavを提案する。
わずか10のデモでUINavは70%の精度を達成でき、十分なデモで90%以上の精度を達成できる。
- 参考スコア(独自算出の注目度): 4.9695803575184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automation systems that can autonomously drive application user interfaces to complete user tasks are of great benefit, especially when users are situationally or permanently impaired. Prior automation systems do not produce generalizable models while AI-based automation agents work reliably only in simple, hand-crafted applications or incur high computation costs. We propose UINav, a demonstration-based approach to train automation agents that fit mobile devices, yet achieving high success rates with modest numbers of demonstrations. To reduce the demonstration overhead, UINav uses a referee model that provides users with immediate feedback on tasks where the agent fails, and automatically augments human demonstrations to increase diversity in training data. Our evaluation shows that with only 10 demonstrations UINav can achieve 70% accuracy, and that with enough demonstrations it can surpass 90% accuracy.
- Abstract(参考訳): アプリケーションユーザインターフェースを自律的に実行してユーザタスクを完了させる自動化システムは,特にユーザが状況的にあるいは永続的に障害を受けた場合,大きなメリットがあります。
従来の自動化システムは一般化可能なモデルを生成していないが、AIベースの自動化エージェントは単純で手作りのアプリケーションでのみ確実に機能し、高い計算コストがかかる。
UINavは、モバイルデバイスに適合する自動化エージェントを訓練するが、デモ数が少なくて高い成功率を達成するための、デモベースのアプローチである。
デモンストレーションのオーバーヘッドを軽減するために、UINavでは、エージェントが失敗するタスクに対する即時にフィードバックを提供するリファインダーモデルを使用して、トレーニングデータの多様性を高めるために、人間のデモを自動的に強化する。
評価の結果,UINavは10のデモで70%の精度を達成でき,十分なデモで90%以上の精度を達成できることがわかった。
関連論文リスト
- AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z) - ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents [0.0]
ClickAgentは、自律エージェントを構築するための新しいフレームワークである。
ClickAgentでは、MLLMが推論とアクションプランニングを処理し、別のUIロケーションモデルが画面上の関連するUI要素を識別する。
本評価は,Androidスマートフォンエミュレータと実際のAndroidスマートフォンの両方で実施し,タスク成功率をエージェント性能測定の指標として用いた。
論文 参考訳(メタデータ) (2024-10-09T14:49:02Z) - Enabling Cost-Effective UI Automation Testing with Retrieval-Based LLMs: A Case Study in WeChat [8.80569452545511]
機械学習と大規模言語モデルを組み合わせることで、業界アプリケーションのためのコスト効率の良いUI自動化テストを作成するために、CATを導入します。
次にCATは機械学習技術を採用し、LLMを補完として、ターゲット要素をUI画面にマップする。
WeChatテストデータセットの評価では、CATのパフォーマンスとコスト効率が示され、90%のUI自動化と0.34ドルのコストが達成されました。
論文 参考訳(メタデータ) (2024-09-12T08:25:33Z) - Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文 参考訳(メタデータ) (2024-04-26T16:40:17Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - MimicGen: A Data Generation System for Scalable Robot Learning using
Human Demonstrations [55.549956643032836]
MimicGenは、少数の人間のデモから大規模でリッチなデータセットを自動的に合成するシステムである。
ロボットエージェントは,この生成したデータセットを模倣学習により効果的に訓練し,長期的・高精度なタスクにおいて高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2023-10-26T17:17:31Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - Dynamic Hand Gesture-Featured Human Motor Adaptation in Tool Delivery
using Voice Recognition [5.13619372598999]
本稿では,革新的なロボット協調フレームワークを提案する。
手の動きや動的動きの認識、音声認識、切り替え可能な制御適応戦略をシームレスに統合する。
ハンドジェスチャ認識における優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-09-20T14:51:09Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。