Fugu-MT 論文翻訳(概要): UINav: A maker of UI automation agents

論文の概要: UINav: A maker of UI automation agents

arxiv url: http://arxiv.org/abs/2312.10170v1
Date: Fri, 15 Dec 2023 19:37:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 18:12:55.047876
Title: UINav: A maker of UI automation agents
Title（参考訳）: UINav: UI自動化エージェントのメーカー
Authors: Wei Li, Fu-Lin Hsu, Will Bishop, Folawiyo Campbell-Ajala, Oriana Riva, Max Lin
Abstract要約: 機械学習の自動化エージェントは、より一般化するが、単純な手作りのアプリケーションでのみ動作するか、あるいは大規模な事前訓練されたモデルに依存している。実演ベースのエージェントメーカシステムであるemphUINavを提案する。 UINavエージェントはモバイルデバイスで動かすのに十分軽量だが、わずかな数のタスクデモで高い成功率を達成する。
参考スコア（独自算出の注目度）: 5.265845972148544
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An automation system that can execute natural language instructions by driving the user interface (UI) of an application can benefit users, especially when situationally or permanently impaired. Traditional automation systems (manual scripting, programming by demonstration tools, etc.) do not produce generalizable models that can tolerate changes in the UI or task workflow. Machine-learned automation agents generalize better, but either work only in simple, hand-crafted applications or rely on large pre-trained models, which may be too computationally expensive to run on mobile devices. In this paper, we propose \emph{UINav}, a demonstration-based agent maker system. UINav agents are lightweight enough to run on mobile devices, yet they achieve high success rates with a modest number of task demonstrations. To minimize the number of task demonstrations, UINav includes a referee model that allows users to receive immediate feedback on tasks where the agent is failing to best guide efforts to collect additional demonstrations. Further, UINav adopts macro actions to reduce an agent's state space, and augments human demonstrations to increase the diversity of training data. Our evaluation demonstrates that with an average of 10 demonstrations per task UINav can achieve an accuracy of 70\% or higher, and that with enough demonstrations it can achieve near-perfect success rates on 40+ different tasks.
Abstract（参考訳）: アプリケーションのユーザインタフェース(UI)を駆動することで自然言語命令を実行できる自動化システムは、特に状況や永続性に障害がある場合に、ユーザに恩恵を与えることができる。従来の自動化システム(手動のスクリプティング、デモツールによるプログラミングなど)は、uiやタスクワークフローの変更を許容する汎用モデルを生成しません。機械学習の自動化エージェントは、より一般化するが、単純な手作りのアプリケーションでのみ動作するか、あるいは大きな事前訓練されたモデルに依存している。本稿では,実演型エージェントメーカシステムである \emph{UINav} を提案する。 UINavエージェントはモバイルデバイスで動かすのに十分軽量だが、わずかな数のタスクデモで高い成功率を達成する。タスクデモの数を最小化するために、UINavにはリファインダーモデルが含まれており、エージェントが追加デモの収集に最善を尽くしていないタスクに対して即座にフィードバックを受け取ることができる。さらに、UINavはエージェントの状態空間を減らすためにマクロアクションを採用し、トレーニングデータの多様性を高めるために人間のデモを強化する。評価の結果,UINav1タスクあたりの平均10回のデモでは70倍以上の精度を達成でき,40以上のタスクでほぼ完全な成功率を達成できることがわかった。

関連論文リスト

AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。 AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-02T07:30:29Z)
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents [0.0]
OSUniverseは、高度なGUIナビゲーションAIエージェントのための複雑なマルチモーダルデスクトップ指向タスクのベンチマークである。タスクを、基本的な精度のクリックからマルチステップ、ディクスタリティ、精度、エージェントからの明確な思考といった複雑さのレベルに分割する。ベンチマークは手動で評価できるが、平均エラー率2%未満の自動検証機構も導入する。
論文参考訳（メタデータ） (2025-05-06T14:29:47Z)
MobileA3gent: Training Mobile GUI Agents Using Decentralized Self-Sourced Data from Diverse Users [52.696186533146516]
MobileA3gentは、分散したセルフソースデータを使用してモバイルGUIエージェントをトレーニングするコラボレーティブフレームワークである。 MobileA3gentは従来のアプローチよりも1%のコストで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-02-05T08:26:17Z)
AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation [27.984521240600493]
大きな言語モデル(LLM)は、モバイルUIエージェントにエキサイティングな新しい進歩をもたらした。必要なモデルサイズを減らす方法の1つは、小さなドメイン固有のモデルをカスタマイズすることです。本稿では,UIタスクの自動化問題をコード生成問題に変換することを提案する。
論文参考訳（メタデータ） (2024-12-24T02:54:56Z)
Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning [24.079032278280447]
バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせたアプローチを提案する。提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験により検証される。
論文参考訳（メタデータ） (2024-11-27T03:33:42Z)
AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文参考訳（メタデータ） (2024-10-28T17:05:10Z)
ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents [0.0]
ClickAgentは、自律エージェントを構築するための新しいフレームワークである。 ClickAgentでは、MLLMが推論とアクションプランニングを処理し、別のUIロケーションモデルが画面上の関連するUI要素を識別する。本評価は,Androidスマートフォンエミュレータと実際のAndroidスマートフォンの両方で実施し,タスク成功率をエージェント性能測定の指標として用いた。
論文参考訳（メタデータ） (2024-10-09T14:49:02Z)
Enabling Cost-Effective UI Automation Testing with Retrieval-Based LLMs: A Case Study in WeChat [8.80569452545511]
機械学習と大規模言語モデルを組み合わせることで、業界アプリケーションのためのコスト効率の良いUI自動化テストを作成するために、CATを導入します。次にCATは機械学習技術を採用し、LLMを補完として、ターゲット要素をUI画面にマップする。 WeChatテストデータセットの評価では、CATのパフォーマンスとコスト効率が示され、90%のUI自動化と0.34ドルのコストが達成されました。
論文参考訳（メタデータ） (2024-09-12T08:25:33Z)
Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文参考訳（メタデータ） (2024-04-26T16:40:17Z)
AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文参考訳（メタデータ） (2024-01-23T18:45:54Z)
ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-20T15:28:38Z)
MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations [55.549956643032836]
MimicGenは、少数の人間のデモから大規模でリッチなデータセットを自動的に合成するシステムである。ロボットエージェントは,この生成したデータセットを模倣学習により効果的に訓練し,長期的・高精度なタスクにおいて高い性能を達成することができることを示す。
論文参考訳（メタデータ） (2023-10-26T17:17:31Z)
You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-09-20T16:12:32Z)
Dynamic Hand Gesture-Featured Human Motor Adaptation in Tool Delivery using Voice Recognition [5.13619372598999]
本稿では,革新的なロボット協調フレームワークを提案する。手の動きや動的動きの認識、音声認識、切り替え可能な制御適応戦略をシームレスに統合する。ハンドジェスチャ認識における優れた性能を示す実験結果が得られた。
論文参考訳（メタデータ） (2023-09-20T14:51:09Z)
ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文参考訳（メタデータ） (2022-06-14T17:09:35Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。