論文の概要: UINav: A maker of UI automation agents
- arxiv url: http://arxiv.org/abs/2312.10170v1
- Date: Fri, 15 Dec 2023 19:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:12:55.047876
- Title: UINav: A maker of UI automation agents
- Title(参考訳): UINav: UI自動化エージェントのメーカー
- Authors: Wei Li, Fu-Lin Hsu, Will Bishop, Folawiyo Campbell-Ajala, Oriana Riva,
Max Lin
- Abstract要約: 機械学習の自動化エージェントは、より一般化するが、単純な手作りのアプリケーションでのみ動作するか、あるいは大規模な事前訓練されたモデルに依存している。
実演ベースのエージェントメーカシステムであるemphUINavを提案する。
UINavエージェントはモバイルデバイスで動かすのに十分軽量だが、わずかな数のタスクデモで高い成功率を達成する。
- 参考スコア(独自算出の注目度): 5.265845972148544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An automation system that can execute natural language instructions by
driving the user interface (UI) of an application can benefit users, especially
when situationally or permanently impaired. Traditional automation systems
(manual scripting, programming by demonstration tools, etc.) do not produce
generalizable models that can tolerate changes in the UI or task workflow.
Machine-learned automation agents generalize better, but either work only in
simple, hand-crafted applications or rely on large pre-trained models, which
may be too computationally expensive to run on mobile devices. In this paper,
we propose \emph{UINav}, a demonstration-based agent maker system. UINav agents
are lightweight enough to run on mobile devices, yet they achieve high success
rates with a modest number of task demonstrations. To minimize the number of
task demonstrations, UINav includes a referee model that allows users to
receive immediate feedback on tasks where the agent is failing to best guide
efforts to collect additional demonstrations. Further, UINav adopts macro
actions to reduce an agent's state space, and augments human demonstrations to
increase the diversity of training data. Our evaluation demonstrates that with
an average of 10 demonstrations per task UINav can achieve an accuracy of 70\%
or higher, and that with enough demonstrations it can achieve near-perfect
success rates on 40+ different tasks.
- Abstract(参考訳): アプリケーションのユーザインタフェース(UI)を駆動することで自然言語命令を実行できる自動化システムは、特に状況や永続性に障害がある場合に、ユーザに恩恵を与えることができる。
従来の自動化システム(手動のスクリプティング、デモツールによるプログラミングなど)は、uiやタスクワークフローの変更を許容する汎用モデルを生成しません。
機械学習の自動化エージェントは、より一般化するが、単純な手作りのアプリケーションでのみ動作するか、あるいは大きな事前訓練されたモデルに依存している。
本稿では,実演型エージェントメーカシステムである \emph{UINav} を提案する。
UINavエージェントはモバイルデバイスで動かすのに十分軽量だが、わずかな数のタスクデモで高い成功率を達成する。
タスクデモの数を最小化するために、UINavにはリファインダーモデルが含まれており、エージェントが追加デモの収集に最善を尽くしていないタスクに対して即座にフィードバックを受け取ることができる。
さらに、UINavはエージェントの状態空間を減らすためにマクロアクションを採用し、トレーニングデータの多様性を高めるために人間のデモを強化する。
評価の結果,UINav1タスクあたりの平均10回のデモでは70倍以上の精度を達成でき,40以上のタスクでほぼ完全な成功率を達成できることがわかった。
関連論文リスト
- AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z) - ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents [0.0]
ClickAgentは、自律エージェントを構築するための新しいフレームワークである。
ClickAgentでは、MLLMが推論とアクションプランニングを処理し、別のUIロケーションモデルが画面上の関連するUI要素を識別する。
本評価は,Androidスマートフォンエミュレータと実際のAndroidスマートフォンの両方で実施し,タスク成功率をエージェント性能測定の指標として用いた。
論文 参考訳(メタデータ) (2024-10-09T14:49:02Z) - Enabling Cost-Effective UI Automation Testing with Retrieval-Based LLMs: A Case Study in WeChat [8.80569452545511]
機械学習と大規模言語モデルを組み合わせることで、業界アプリケーションのためのコスト効率の良いUI自動化テストを作成するために、CATを導入します。
次にCATは機械学習技術を採用し、LLMを補完として、ターゲット要素をUI画面にマップする。
WeChatテストデータセットの評価では、CATのパフォーマンスとコスト効率が示され、90%のUI自動化と0.34ドルのコストが達成されました。
論文 参考訳(メタデータ) (2024-09-12T08:25:33Z) - Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文 参考訳(メタデータ) (2024-04-26T16:40:17Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - MimicGen: A Data Generation System for Scalable Robot Learning using
Human Demonstrations [55.549956643032836]
MimicGenは、少数の人間のデモから大規模でリッチなデータセットを自動的に合成するシステムである。
ロボットエージェントは,この生成したデータセットを模倣学習により効果的に訓練し,長期的・高精度なタスクにおいて高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2023-10-26T17:17:31Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - Dynamic Hand Gesture-Featured Human Motor Adaptation in Tool Delivery
using Voice Recognition [5.13619372598999]
本稿では,革新的なロボット協調フレームワークを提案する。
手の動きや動的動きの認識、音声認識、切り替え可能な制御適応戦略をシームレスに統合する。
ハンドジェスチャ認識における優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-09-20T14:51:09Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。