論文の概要: Human-centered collaborative robots with deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2007.01009v1
- Date: Thu, 2 Jul 2020 10:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 13:44:26.086348
- Title: Human-centered collaborative robots with deep reinforcement learning
- Title(参考訳): 深層強化学習による人間中心協調ロボット
- Authors: Ali Ghadirzadeh, Xi Chen, Wenjie Yin, Zhengrong Yi, M{\aa}rten
Bj\"orkman and Danica Kragic
- Abstract要約: 人中心協調システムのための強化学習に基づくフレームワークを提案する。
フレームワークは積極的に、タイムリーなアクションの利点と不適切なアクションを取るリスクのバランスを取る。
- 参考スコア(独自算出の注目度): 17.95532625062205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a reinforcement learning based framework for human-centered
collaborative systems. The framework is proactive and balances the benefits of
timely actions with the risk of taking improper actions by minimizing the total
time spent to complete the task. The framework is learned end-to-end in an
unsupervised fashion addressing the perception uncertainties and decision
making in an integrated manner. The framework is shown to provide more fluent
coordination between human and robot partners on an example task of packaging
compared to alternatives for which perception and decision-making systems are
learned independently, using supervised learning. The foremost benefit of the
proposed approach is that it allows for fast adaptation to new human partners
and tasks since tedious annotation of motion data is avoided and the learning
is performed on-line.
- Abstract(参考訳): 人中心協調システムのための強化学習に基づくフレームワークを提案する。
フレームワークは積極的であり、タスク完了に要する時間を最小化することで、タイムリーなアクションの利点と不適切なアクションを取るリスクのバランスを取る。
フレームワークは、認識の不確実性と意思決定を統合的に対処する教師なしの方法でエンドツーエンドに学習される。
このフレームワークは、教師付き学習を用いて、知覚と意思決定システムが独立して学習される代替品と比較して、パッケージングの例題として、人間とロボットのパートナー間のより流動的な協調を提供する。
提案手法の一番の利点は,動きデータの退屈なアノテーションを回避し,学習をオンラインで行うため,新たな人間パートナーやタスクへの迅速な適応を可能にすることである。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Harnessing Transparent Learning Analytics for Individualized Support
through Auto-detection of Engagement in Face-to-Face Collaborative Learning [3.0184625301151833]
本稿では,共同作業における学生の個人参加を自動的に検出する透過的アプローチを提案する。
提案手法は,学生の個人的関与を反映し,異なる協調学習課題を持つ生徒を識別する指標として利用することができる。
論文 参考訳(メタデータ) (2024-01-03T12:20:28Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning
Systems [0.8223798883838329]
本研究では,人間同士の相互作用を強化学習ループに組み込む方法について検討する。
その結果,人間同士の相互作用に基づいて学習した報奨信号は,強化学習アルゴリズムの学習速度を加速させることがわかった。
論文 参考訳(メタデータ) (2020-08-30T17:28:18Z) - Constrained-Space Optimization and Reinforcement Learning for Complex
Tasks [42.648636742651185]
Demonstrationからの学習は、オペレータ操作スキルをロボットに転送するためにますます利用されている。
本稿では,複雑なタスクを管理するための制約付き空間最適化と強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T21:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。