論文の概要: Learning UI Navigation through Demonstrations composed of Macro Actions
- arxiv url: http://arxiv.org/abs/2110.08653v1
- Date: Sat, 16 Oct 2021 20:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:39:03.725206
- Title: Learning UI Navigation through Demonstrations composed of Macro Actions
- Title(参考訳): マクロアクションによるデモを通してUIナビゲーションを学ぶ
- Authors: Wei Li
- Abstract要約: UIナビゲーションが可能なエージェントを確実に構築するフレームワークを開発した。
状態空間は、生のピクセルから画面理解から抽出されたUI要素のセットに単純化される。
本稿では,人間によるデモの回数を大幅に削減するデモ拡張を提案する。
- 参考スコア(独自算出の注目度): 3.4304210245189486
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We have developed a framework to reliably build agents capable of UI
navigation. The state space is simplified from raw-pixels to a set of UI
elements extracted from screen understanding, such as OCR and icon detection.
The action space is restricted to the UI elements plus a few global actions.
Actions can be customized for tasks and each action is a sequence of basic
operations conditioned on status checks. With such a design, we are able to
train DQfD and BC agents with a small number of demonstration episodes. We
propose demo augmentation that significantly reduces the required number of
human demonstrations. We made a customization of DQfD to allow demos collected
on screenshots to facilitate the demo coverage of rare cases. Demos are only
collected for the failed cases during the evaluation of the previous version of
the agent. With 10s of iterations looping over evaluation, demo collection, and
training, the agent reaches a 98.7\% success rate on the search task in an
environment of 80+ apps and websites where initial states and viewing
parameters are randomized.
- Abstract(参考訳): UIナビゲーションが可能なエージェントを確実に構築するフレームワークを開発した。
状態空間は生のピクセルからocrやアイコン検出などの画面理解から抽出されたui要素の集合へと単純化される。
アクションスペースはUI要素といくつかのグローバルアクションに制限される。
アクションはタスク用にカスタマイズでき、各アクションはステータスチェックで条件付けられた基本的な操作のシーケンスである。
このような設計により、DQfDおよびBCエージェントを少数の実演エピソードで訓練することができる。
我々は,人間のデモの必要な数を大幅に削減するデモ拡張を提案する。
DQfDをカスタマイズして、スクリーンショットに集められたデモを、まれなケースのデモカバレッジを容易にするようにしました。
デモは、以前のバージョンのエージェントの評価中に失敗したケースに対してのみ収集される。
評価、デモ収集、トレーニングを10回ループすることで、初期状態や視聴パラメータがランダム化された80以上のアプリやwebサイトにおいて、エージェントは検索タスクで98.7\%の成功率に達する。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - A Minimalist Prompt for Zero-Shot Policy Learning [61.65128628634916]
トランスフォーマーに基づく手法は、推論中にターゲットドメインのデモや例解を誘導するときに、かなりの一般化能力を示す。
本稿では,タスクパラメータのみに決定変換器を条件付けすることで,実演条件と同等以上のゼロショット一般化を実現できることを示す。
我々は、ロボット制御、操作、ナビゲーションベンチマークタスクの範囲で、ゼロショットの一般化をさらに促進するために、さらに学習可能なプロンプトを導入する。
論文 参考訳(メタデータ) (2024-05-09T19:15:33Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - DITTO: Demonstration Imitation by Trajectory Transformation [31.930923345163087]
そこで本研究では,RGB-Dビデオ録画による実演映像のワンショット模倣の問題に対処する。
本稿では,2段階のプロセスを提案する。第1段階では実演軌道をオフラインに抽出し,操作対象のセグメンテーションと,容器などの二次物体に対する相対運動を決定する。
オンライン軌道生成段階では、まず全ての物体を再検出し、次にデモ軌道を現在のシーンにワープし、ロボット上で実行します。
論文 参考訳(メタデータ) (2024-03-22T13:46:51Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z) - Meta-training with Demonstration Retrieval for Efficient Few-shot
Learning [11.723856248352007]
大規模な言語モデルは、数ショットのNLPタスクで印象的な結果を示す。
これらのモデルはメモリと計算集約である。
本稿では,実演検索によるメタトレーニングを提案する。
論文 参考訳(メタデータ) (2023-06-30T20:16:22Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - ActionCLIP: A New Paradigm for Video Action Recognition [14.961103794667341]
ラベルテキストのセマンティック情報に重きを置くことで,行動認識の新しい視点を提供する。
動作認識のためのマルチモーダル学習フレームワークに基づく新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2021-09-17T11:21:34Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。