論文の概要: Learning UI Navigation through Demonstrations composed of Macro Actions
- arxiv url: http://arxiv.org/abs/2110.08653v1
- Date: Sat, 16 Oct 2021 20:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:39:03.725206
- Title: Learning UI Navigation through Demonstrations composed of Macro Actions
- Title(参考訳): マクロアクションによるデモを通してUIナビゲーションを学ぶ
- Authors: Wei Li
- Abstract要約: UIナビゲーションが可能なエージェントを確実に構築するフレームワークを開発した。
状態空間は、生のピクセルから画面理解から抽出されたUI要素のセットに単純化される。
本稿では,人間によるデモの回数を大幅に削減するデモ拡張を提案する。
- 参考スコア(独自算出の注目度): 3.4304210245189486
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We have developed a framework to reliably build agents capable of UI
navigation. The state space is simplified from raw-pixels to a set of UI
elements extracted from screen understanding, such as OCR and icon detection.
The action space is restricted to the UI elements plus a few global actions.
Actions can be customized for tasks and each action is a sequence of basic
operations conditioned on status checks. With such a design, we are able to
train DQfD and BC agents with a small number of demonstration episodes. We
propose demo augmentation that significantly reduces the required number of
human demonstrations. We made a customization of DQfD to allow demos collected
on screenshots to facilitate the demo coverage of rare cases. Demos are only
collected for the failed cases during the evaluation of the previous version of
the agent. With 10s of iterations looping over evaluation, demo collection, and
training, the agent reaches a 98.7\% success rate on the search task in an
environment of 80+ apps and websites where initial states and viewing
parameters are randomized.
- Abstract(参考訳): UIナビゲーションが可能なエージェントを確実に構築するフレームワークを開発した。
状態空間は生のピクセルからocrやアイコン検出などの画面理解から抽出されたui要素の集合へと単純化される。
アクションスペースはUI要素といくつかのグローバルアクションに制限される。
アクションはタスク用にカスタマイズでき、各アクションはステータスチェックで条件付けられた基本的な操作のシーケンスである。
このような設計により、DQfDおよびBCエージェントを少数の実演エピソードで訓練することができる。
我々は,人間のデモの必要な数を大幅に削減するデモ拡張を提案する。
DQfDをカスタマイズして、スクリーンショットに集められたデモを、まれなケースのデモカバレッジを容易にするようにしました。
デモは、以前のバージョンのエージェントの評価中に失敗したケースに対してのみ収集される。
評価、デモ収集、トレーニングを10回ループすることで、初期状態や視聴パラメータがランダム化された80以上のアプリやwebサイトにおいて、エージェントは検索タスクで98.7\%の成功率に達する。
関連論文リスト
- Android in the Zoo: Chain-of-Action-Thought for GUI Agents [39.713207012540884]
Chain-of-Action-Thought(CoATと呼ばれる)は、標準的なコンテキストモデリングよりも目標の進捗を改善する。
AitZ(Android-In-The-Zoo)は18,643のスクリーンアクションペアとチェーン・オブ・アクション・アノテーションを含むベンチマークである。
実験の結果、AitZデータセット上で2億のモデルを微調整すると、CogAgent-Chat-18Bで同等のパフォーマンスが得られることがわかった。
論文 参考訳(メタデータ) (2024-03-05T07:09:35Z) - UINav: A maker of UI automation agents [5.265845972148544]
機械学習の自動化エージェントは、より一般化するが、単純な手作りのアプリケーションでのみ動作するか、あるいは大規模な事前訓練されたモデルに依存している。
実演ベースのエージェントメーカシステムであるemphUINavを提案する。
UINavエージェントはモバイルデバイスで動かすのに十分軽量だが、わずかな数のタスクデモで高い成功率を達成する。
論文 参考訳(メタデータ) (2023-12-15T19:37:39Z) - Meta-training with Demonstration Retrieval for Efficient Few-shot
Learning [11.723856248352007]
大規模な言語モデルは、数ショットのNLPタスクで印象的な結果を示す。
これらのモデルはメモリと計算集約である。
本稿では,実演検索によるメタトレーニングを提案する。
論文 参考訳(メタデータ) (2023-06-30T20:16:22Z) - Explicit Visual Prompting for Universal Foreground Segmentations [55.51869354956533]
我々は,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。
我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルを高速化する。
本手法は,事前学習したモデルを凍結し,いくつかのパラメータを用いてタスク固有の知識を学習する。
論文 参考訳(メタデータ) (2023-05-29T11:05:01Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - ActionCLIP: A New Paradigm for Video Action Recognition [14.961103794667341]
ラベルテキストのセマンティック情報に重きを置くことで,行動認識の新しい視点を提供する。
動作認識のためのマルチモーダル学習フレームワークに基づく新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2021-09-17T11:21:34Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。