論文の概要: UINav: A maker of UI automation agents
- arxiv url: http://arxiv.org/abs/2312.10170v1
- Date: Fri, 15 Dec 2023 19:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:12:55.047876
- Title: UINav: A maker of UI automation agents
- Title(参考訳): UINav: UI自動化エージェントのメーカー
- Authors: Wei Li, Fu-Lin Hsu, Will Bishop, Folawiyo Campbell-Ajala, Oriana Riva,
Max Lin
- Abstract要約: 機械学習の自動化エージェントは、より一般化するが、単純な手作りのアプリケーションでのみ動作するか、あるいは大規模な事前訓練されたモデルに依存している。
実演ベースのエージェントメーカシステムであるemphUINavを提案する。
UINavエージェントはモバイルデバイスで動かすのに十分軽量だが、わずかな数のタスクデモで高い成功率を達成する。
- 参考スコア(独自算出の注目度): 5.265845972148544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An automation system that can execute natural language instructions by
driving the user interface (UI) of an application can benefit users, especially
when situationally or permanently impaired. Traditional automation systems
(manual scripting, programming by demonstration tools, etc.) do not produce
generalizable models that can tolerate changes in the UI or task workflow.
Machine-learned automation agents generalize better, but either work only in
simple, hand-crafted applications or rely on large pre-trained models, which
may be too computationally expensive to run on mobile devices. In this paper,
we propose \emph{UINav}, a demonstration-based agent maker system. UINav agents
are lightweight enough to run on mobile devices, yet they achieve high success
rates with a modest number of task demonstrations. To minimize the number of
task demonstrations, UINav includes a referee model that allows users to
receive immediate feedback on tasks where the agent is failing to best guide
efforts to collect additional demonstrations. Further, UINav adopts macro
actions to reduce an agent's state space, and augments human demonstrations to
increase the diversity of training data. Our evaluation demonstrates that with
an average of 10 demonstrations per task UINav can achieve an accuracy of 70\%
or higher, and that with enough demonstrations it can achieve near-perfect
success rates on 40+ different tasks.
- Abstract(参考訳): アプリケーションのユーザインタフェース(UI)を駆動することで自然言語命令を実行できる自動化システムは、特に状況や永続性に障害がある場合に、ユーザに恩恵を与えることができる。
従来の自動化システム(手動のスクリプティング、デモツールによるプログラミングなど)は、uiやタスクワークフローの変更を許容する汎用モデルを生成しません。
機械学習の自動化エージェントは、より一般化するが、単純な手作りのアプリケーションでのみ動作するか、あるいは大きな事前訓練されたモデルに依存している。
本稿では,実演型エージェントメーカシステムである \emph{UINav} を提案する。
UINavエージェントはモバイルデバイスで動かすのに十分軽量だが、わずかな数のタスクデモで高い成功率を達成する。
タスクデモの数を最小化するために、UINavにはリファインダーモデルが含まれており、エージェントが追加デモの収集に最善を尽くしていないタスクに対して即座にフィードバックを受け取ることができる。
さらに、UINavはエージェントの状態空間を減らすためにマクロアクションを採用し、トレーニングデータの多様性を高めるために人間のデモを強化する。
評価の結果,UINav1タスクあたりの平均10回のデモでは70倍以上の精度を達成でき,40以上のタスクでほぼ完全な成功率を達成できることがわかった。
関連論文リスト
- ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - TaskBench: Benchmarking Large Language Models for Task Automation [85.3879908356586]
タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。
高品質な評価データセットを生成するために,ツールグラフの概念を導入する。
また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [43.850040967091616]
Auto-UIはインターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は30Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking [54.776890150458385]
マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。
私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。
平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
論文 参考訳(メタデータ) (2023-09-05T03:14:39Z) - RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation [36.43143326197769]
Track-Any-Point (TAP) モデルは、デモ中の関連する動きを分離し、低レベルのコントローラをパラメータ化して、シーン構成の変化をまたいでこの動きを再現する。
この結果は,形状整合,積み重ね,さらには接着や物体の付着といった完全な経路追従といった複雑な物体配置タスクを解くことのできるロバストなロボットポリシーで示される。
論文 参考訳(メタデータ) (2023-08-30T11:57:04Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - Error-Aware Imitation Learning from Teleoperation Data for Mobile
Manipulation [54.31414116478024]
移動操作(MM)では、ロボットは環境内を移動して操作することができる。
本研究では,MMタスクに対する連続的なビジュオモダポリシの学習に模倣学習(IL)を適用する方法について検討する。
論文 参考訳(メタデータ) (2021-12-09T23:54:59Z) - Learning UI Navigation through Demonstrations composed of Macro Actions [3.4304210245189486]
UIナビゲーションが可能なエージェントを確実に構築するフレームワークを開発した。
状態空間は、生のピクセルから画面理解から抽出されたUI要素のセットに単純化される。
本稿では,人間によるデモの回数を大幅に削減するデモ拡張を提案する。
論文 参考訳(メタデータ) (2021-10-16T20:29:41Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。