Fugu-MT 論文翻訳(概要): Learning UI Navigation through Demonstrations composed of Macro Actions

論文の概要: Learning UI Navigation through Demonstrations composed of Macro Actions

arxiv url: http://arxiv.org/abs/2110.08653v1
Date: Sat, 16 Oct 2021 20:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-19 16:39:03.725206
Title: Learning UI Navigation through Demonstrations composed of Macro Actions
Title（参考訳）: マクロアクションによるデモを通してUIナビゲーションを学ぶ
Authors: Wei Li
Abstract要約: UIナビゲーションが可能なエージェントを確実に構築するフレームワークを開発した。状態空間は、生のピクセルから画面理解から抽出されたUI要素のセットに単純化される。本稿では,人間によるデモの回数を大幅に削減するデモ拡張を提案する。
参考スコア（独自算出の注目度）: 3.4304210245189486
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We have developed a framework to reliably build agents capable of UI navigation. The state space is simplified from raw-pixels to a set of UI elements extracted from screen understanding, such as OCR and icon detection. The action space is restricted to the UI elements plus a few global actions. Actions can be customized for tasks and each action is a sequence of basic operations conditioned on status checks. With such a design, we are able to train DQfD and BC agents with a small number of demonstration episodes. We propose demo augmentation that significantly reduces the required number of human demonstrations. We made a customization of DQfD to allow demos collected on screenshots to facilitate the demo coverage of rare cases. Demos are only collected for the failed cases during the evaluation of the previous version of the agent. With 10s of iterations looping over evaluation, demo collection, and training, the agent reaches a 98.7\% success rate on the search task in an environment of 80+ apps and websites where initial states and viewing parameters are randomized.
Abstract（参考訳）: UIナビゲーションが可能なエージェントを確実に構築するフレームワークを開発した。状態空間は生のピクセルからocrやアイコン検出などの画面理解から抽出されたui要素の集合へと単純化される。アクションスペースはUI要素といくつかのグローバルアクションに制限される。アクションはタスク用にカスタマイズでき、各アクションはステータスチェックで条件付けられた基本的な操作のシーケンスである。このような設計により、DQfDおよびBCエージェントを少数の実演エピソードで訓練することができる。我々は,人間のデモの必要な数を大幅に削減するデモ拡張を提案する。 DQfDをカスタマイズして、スクリーンショットに集められたデモを、まれなケースのデモカバレッジを容易にするようにしました。デモは、以前のバージョンのエージェントの評価中に失敗したケースに対してのみ収集される。評価、デモ収集、トレーニングを10回ループすることで、初期状態や視聴パラメータがランダム化された80以上のアプリやwebサイトにおいて、エージェントは検索タスクで98.7\%の成功率に達する。

関連論文リスト

MAPLE: A Mobile Agent with Persistent Finite State Machines for Structured Task Reasoning [46.18718721121415]
アプリケーションインタラクションをFSM(Finite State Machine)として抽象化する,状態認識型マルチエージェントフレームワークMAPLEを提案する。それぞれのUI画面を離散状態として、ユーザアクションをトランジションとしてモデル化し、FSMがアプリケーション実行の構造化された表現を提供できるようにします。 MAPLEは、計画、実行、検証、エラー回復、知識保持という4段階のタスク実行に責任を持つ特殊エージェントで構成されている。
論文参考訳（メタデータ） (2025-05-29T16:08:51Z)
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [51.439283251703635]
計算資源やデータトレーニングの限界内で、複数のタスクに対処できる優れた一般認識モデルを作成します。 DICEPTIONが複数の知覚タスクに効果的に取り組み、最先端のモデルと同等の性能を達成していることを示す。異なるインスタンスにランダムな色を割り当てる戦略は、エンティティセグメンテーションとセマンティックセグメンテーションの両方において非常に効果的であることを示す。
論文参考訳（メタデータ） (2025-02-24T13:51:06Z)
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文参考訳（メタデータ） (2024-10-03T17:49:28Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
A Minimalist Prompt for Zero-Shot Policy Learning [61.65128628634916]
トランスフォーマーに基づく手法は、推論中にターゲットドメインのデモや例解を誘導するときに、かなりの一般化能力を示す。本稿では,タスクパラメータのみに決定変換器を条件付けすることで,実演条件と同等以上のゼロショット一般化を実現できることを示す。我々は、ロボット制御、操作、ナビゲーションベンチマークタスクの範囲で、ゼロショットの一般化をさらに促進するために、さらに学習可能なプロンプトを導入する。
論文参考訳（メタデータ） (2024-05-09T19:15:33Z)
MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文参考訳（メタデータ） (2024-04-16T16:50:35Z)
DITTO: Demonstration Imitation by Trajectory Transformation [31.930923345163087]
そこで本研究では,RGB-Dビデオ録画による実演映像のワンショット模倣の問題に対処する。本稿では,2段階のプロセスを提案する。第1段階では実演軌道をオフラインに抽出し,操作対象のセグメンテーションと,容器などの二次物体に対する相対運動を決定する。オンライン軌道生成段階では、まず全ての物体を再検出し、次にデモ軌道を現在のシーンにワープし、ロボット上で実行します。
論文参考訳（メタデータ） (2024-03-22T13:46:51Z)
A Zero-Shot Language Agent for Computer Control with Structured Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文参考訳（メタデータ） (2023-10-12T21:53:37Z)
Meta-training with Demonstration Retrieval for Efficient Few-shot Learning [11.723856248352007]
大規模な言語モデルは、数ショットのNLPタスクで印象的な結果を示す。これらのモデルはメモリと計算集約である。本稿では,実演検索によるメタトレーニングを提案する。
論文参考訳（メタデータ） (2023-06-30T20:16:22Z)
Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。 OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文参考訳（メタデータ） (2022-02-07T10:38:21Z)
ActionCLIP: A New Paradigm for Video Action Recognition [14.961103794667341]
ラベルテキストのセマンティック情報に重きを置くことで,行動認識の新しい視点を提供する。動作認識のためのマルチモーダル学習フレームワークに基づく新しいパラダイムを提案する。
論文参考訳（メタデータ） (2021-09-17T11:21:34Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)
Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文参考訳（メタデータ） (2020-03-19T15:04:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。