Fugu-MT 論文翻訳(概要): UINav: A Practical Approach to Train On-Device Automation Agents

論文の概要: UINav: A Practical Approach to Train On-Device Automation Agents

arxiv url: http://arxiv.org/abs/2312.10170v2
Date: Tue, 2 Apr 2024 17:25:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 11:33:25.240557
Title: UINav: A Practical Approach to Train On-Device Automation Agents
Title（参考訳）: UINav: デバイス上で自動化エージェントをトレーニングするための実践的アプローチ
Authors: Wei Li, Fu-Lin Hsu, Will Bishop, Folawiyo Campbell-Ajala, Max Lin, Oriana Riva,
Abstract要約: モバイル機器に適合する自動化エージェントをトレーニングするための,デモベースのアプローチであるUINavを提案する。わずか10のデモでUINavは70%の精度を達成でき、十分なデモで90%以上の精度を達成できる。
参考スコア（独自算出の注目度）: 4.9695803575184
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automation systems that can autonomously drive application user interfaces to complete user tasks are of great benefit, especially when users are situationally or permanently impaired. Prior automation systems do not produce generalizable models while AI-based automation agents work reliably only in simple, hand-crafted applications or incur high computation costs. We propose UINav, a demonstration-based approach to train automation agents that fit mobile devices, yet achieving high success rates with modest numbers of demonstrations. To reduce the demonstration overhead, UINav uses a referee model that provides users with immediate feedback on tasks where the agent fails, and automatically augments human demonstrations to increase diversity in training data. Our evaluation shows that with only 10 demonstrations UINav can achieve 70% accuracy, and that with enough demonstrations it can surpass 90% accuracy.
Abstract（参考訳）: アプリケーションユーザインターフェースを自律的に実行してユーザタスクを完了させる自動化システムは,特にユーザが状況的にあるいは永続的に障害を受けた場合,大きなメリットがあります。従来の自動化システムは一般化可能なモデルを生成していないが、AIベースの自動化エージェントは単純で手作りのアプリケーションでのみ確実に機能し、高い計算コストがかかる。 UINavは、モバイルデバイスに適合する自動化エージェントを訓練するが、デモ数が少なくて高い成功率を達成するための、デモベースのアプローチである。デモンストレーションのオーバーヘッドを軽減するために、UINavでは、エージェントが失敗するタスクに対する即時にフィードバックを提供するリファインダーモデルを使用して、トレーニングデータの多様性を高めるために、人間のデモを自動的に強化する。評価の結果,UINavは10のデモで70%の精度を達成でき,十分なデモで90%以上の精度を達成できることがわかった。

関連論文リスト

Demonstration-Free Robotic Control via LLM Agents [0.0]
FAEA (Frontier Agent as Embodied Agent) を導入する。 FAEAは、特権環境の状態アクセスにより、それぞれ84.9%、85.7%、96%の成功率を達成した。この結果から,汎用エージェントは,熟考的タスクレベルの計画に支配される操作タスクのクラスに十分であることが示唆された。
論文参考訳（メタデータ） (2026-01-28T07:49:35Z)
Step-GUI Technical Report [84.83795946544292]
本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
論文参考訳（メタデータ） (2025-12-17T13:26:30Z)
AFRAgent : An Adaptive Feature Renormalization Based High Resolution Aware GUI agent [21.148033135113927]
インストラクトBLIPに基づくマルチモーダルアーキテクチャを導入し,GUI自動化における優れた性能を実現する。低解像度画像埋め込みを効果的に強化する適応的特徴正規化(トークンレベルのアフィン変換)手法を提案する。我々はAFRAgentをMeta-GUIおよびAITWベンチマークで評価し、スマートフォン自動化のための新しい最先端のベースラインを確立する。
論文参考訳（メタデータ） (2025-11-30T11:32:54Z)
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。 AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-02T07:30:29Z)
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents [0.0]
OSUniverseは、高度なGUIナビゲーションAIエージェントのための複雑なマルチモーダルデスクトップ指向タスクのベンチマークである。タスクを、基本的な精度のクリックからマルチステップ、ディクスタリティ、精度、エージェントからの明確な思考といった複雑さのレベルに分割する。ベンチマークは手動で評価できるが、平均エラー率2%未満の自動検証機構も導入する。
論文参考訳（メタデータ） (2025-05-06T14:29:47Z)
MobileA3gent: Training Mobile GUI Agents Using Decentralized Self-Sourced Data from Diverse Users [52.696186533146516]
MobileA3gentは、分散したセルフソースデータを使用してモバイルGUIエージェントをトレーニングするコラボレーティブフレームワークである。 MobileA3gentは従来のアプローチよりも1%のコストで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-02-05T08:26:17Z)
AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation [27.984521240600493]
大きな言語モデル(LLM)は、モバイルUIエージェントにエキサイティングな新しい進歩をもたらした。必要なモデルサイズを減らす方法の1つは、小さなドメイン固有のモデルをカスタマイズすることです。本稿では,UIタスクの自動化問題をコード生成問題に変換することを提案する。
論文参考訳（メタデータ） (2024-12-24T02:54:56Z)
Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning [24.079032278280447]
バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせたアプローチを提案する。提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験により検証される。
論文参考訳（メタデータ） (2024-11-27T03:33:42Z)
AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文参考訳（メタデータ） (2024-10-28T17:05:10Z)
ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents [0.0]
ClickAgentは、自律エージェントを構築するための新しいフレームワークである。 ClickAgentでは、MLLMが推論とアクションプランニングを処理し、別のUIロケーションモデルが画面上の関連するUI要素を識別する。本評価は,Androidスマートフォンエミュレータと実際のAndroidスマートフォンの両方で実施し,タスク成功率をエージェント性能測定の指標として用いた。
論文参考訳（メタデータ） (2024-10-09T14:49:02Z)
Enabling Cost-Effective UI Automation Testing with Retrieval-Based LLMs: A Case Study in WeChat [8.80569452545511]
機械学習と大規模言語モデルを組み合わせることで、業界アプリケーションのためのコスト効率の良いUI自動化テストを作成するために、CATを導入します。次にCATは機械学習技術を採用し、LLMを補完として、ターゲット要素をUI画面にマップする。 WeChatテストデータセットの評価では、CATのパフォーマンスとコスト効率が示され、90%のUI自動化と0.34ドルのコストが達成されました。
論文参考訳（メタデータ） (2024-09-12T08:25:33Z)
Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文参考訳（メタデータ） (2024-04-26T16:40:17Z)
AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文参考訳（メタデータ） (2024-01-23T18:45:54Z)
ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-20T15:28:38Z)
MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations [55.549956643032836]
MimicGenは、少数の人間のデモから大規模でリッチなデータセットを自動的に合成するシステムである。ロボットエージェントは,この生成したデータセットを模倣学習により効果的に訓練し,長期的・高精度なタスクにおいて高い性能を達成することができることを示す。
論文参考訳（メタデータ） (2023-10-26T17:17:31Z)
You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-09-20T16:12:32Z)
Dynamic Hand Gesture-Featured Human Motor Adaptation in Tool Delivery using Voice Recognition [5.13619372598999]
本稿では,革新的なロボット協調フレームワークを提案する。手の動きや動的動きの認識、音声認識、切り替え可能な制御適応戦略をシームレスに統合する。ハンドジェスチャ認識における優れた性能を示す実験結果が得られた。
論文参考訳（メタデータ） (2023-09-20T14:51:09Z)
ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文参考訳（メタデータ） (2022-06-14T17:09:35Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。