論文の概要: A data-driven approach for learning to control computers
- arxiv url: http://arxiv.org/abs/2202.08137v1
- Date: Wed, 16 Feb 2022 15:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 19:07:31.655720
- Title: A data-driven approach for learning to control computers
- Title(参考訳): コンピュータ制御学習のためのデータ駆動型アプローチ
- Authors: Peter C Humphreys, David Raposo, Toby Pohlen, Gregory Thornton,
Rachita Chhaparia, Alistair Muldal, Josh Abramson, Petko Georgiev, Alex
Goldin, Adam Santoro, Timothy Lillicrap
- Abstract要約: 本稿では,キーボードとマウスを用いたコンピュータ制御の設定について,自然言語による目標設定について検討する。
MiniWob++ベンチマークのすべてのタスクにおいて、最先端および人間レベルの平均パフォーマンスを実現しています。
これらの結果から,コンピュータを訓練する際の統合ヒューマンエージェントインタフェースの有用性が示された。
- 参考スコア(独自算出の注目度): 8.131261634438912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It would be useful for machines to use computers as humans do so that they
can aid us in everyday tasks. This is a setting in which there is also the
potential to leverage large-scale expert demonstrations and human judgements of
interactive behaviour, which are two ingredients that have driven much recent
success in AI. Here we investigate the setting of computer control using
keyboard and mouse, with goals specified via natural language. Instead of
focusing on hand-designed curricula and specialized action spaces, we focus on
developing a scalable method centered on reinforcement learning combined with
behavioural priors informed by actual human-computer interactions. We achieve
state-of-the-art and human-level mean performance across all tasks within the
MiniWob++ benchmark, a challenging suite of computer control problems, and find
strong evidence of cross-task transfer. These results demonstrate the
usefulness of a unified human-agent interface when training machines to use
computers. Altogether our results suggest a formula for achieving competency
beyond MiniWob++ and towards controlling computers, in general, as a human
would.
- Abstract(参考訳): マシンが人間と同じようにコンピュータを使うことは、日常のタスクで私たちを助けるのに役立つだろう。
これは、大規模な専門家によるデモンストレーションや対話的行動の人間の判断を活用できる可能性がある設定であり、これはAIで非常に最近成功した2つの要素である。
本稿では,キーボードとマウスを用いたコンピュータ制御の設定と,自然言語による目標について検討する。
手作りのカリキュラムや特殊アクションスペースに焦点を合わせるのではなく、人間とコンピュータの相互作用によって学習される行動優先とを組み合わせた強化学習を中心としたスケーラブルな手法の開発に焦点をあてた。
我々は、MiniWob++ベンチマークのすべてのタスクにおいて、最先端で人間レベルの平均性能を実現し、コンピュータ制御の問題に挑戦し、クロスタスク転送の強い証拠を見つける。
これらの結果から,コンピュータ使用訓練における統合型ヒューマンエージェントインタフェースの有用性が示された。
我々の結果は、MiniWob++を超えて能力を達成するための公式を示唆し、コンピュータを人間として制御する。
関連論文リスト
- Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition [48.65867987106428]
本稿では,人間とロボットの協調学習システムについて紹介する。
これにより、ロボットエンドエフェクターの制御を学習支援エージェントと共有することができる。
これにより、ダウンストリームタスクにおいて、収集されたデータが十分な品質であることを保証しながら、人間の適応の必要性を減らすことができる。
論文 参考訳(メタデータ) (2024-06-29T03:37:29Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Learning to Complement Humans [67.38348247794949]
オープンワールドにおけるAIに対するビジョンの高まりは、知覚、診断、推論タスクのために人間を補完できるシステムの開発に焦点を当てている。
我々は,人間-機械チームの複合的なパフォーマンスを最適化するために,エンド・ツー・エンドの学習戦略をどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2020-05-01T20:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。