論文の概要: Learning from humans: combining imitation and deep reinforcement
learning to accomplish human-level performance on a virtual foraging task
- arxiv url: http://arxiv.org/abs/2203.06250v1
- Date: Fri, 11 Mar 2022 20:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 04:16:03.075674
- Title: Learning from humans: combining imitation and deep reinforcement
learning to accomplish human-level performance on a virtual foraging task
- Title(参考訳): 人間からの学習--擬似と深い強化学習を組み合わせて仮想採餌作業における人間レベルのパフォーマンスを達成する
- Authors: Vittorio Giammarino, Matthew F Dunne, Kylie N Moore, Michael E
Hasselmo, Chantal E Stern, Ioannis Ch. Paschalidis
- Abstract要約: 本研究では,ヒトデータを用いたバイオインスパイアされた採餌政策の学習方法を開発した。
オープンフィールドの養殖環境に人間が仮想的に没入し、最高の報酬を集めるために訓練される実験を行う。
- 参考スコア(独自算出の注目度): 6.263481844384228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a method to learn bio-inspired foraging policies using human data.
We conduct an experiment where humans are virtually immersed in an open field
foraging environment and are trained to collect the highest amount of rewards.
A Markov Decision Process (MDP) framework is introduced to model the human
decision dynamics. Then, Imitation Learning (IL) based on maximum likelihood
estimation is used to train Neural Networks (NN) that map human decisions to
observed states. The results show that passive imitation substantially
underperforms humans. We further refine the human-inspired policies via
Reinforcement Learning (RL), using on-policy algorithms that are more suitable
to learn from pre-trained networks. We show that the combination of IL and RL
can match human results and that good performance strongly depends on an
egocentric representation of the environment. The developed methodology can be
used to efficiently learn policies for unmanned vehicles which have to solve
missions in an open field environment.
- Abstract(参考訳): 本研究では,ヒトデータを用いたバイオインスパイアされた採餌政策の学習方法を開発した。
オープンフィールドの養殖環境に人間が仮想的に没入し、最高の報酬を集めるために訓練される実験を行う。
マルコフ決定プロセス(MDP)フレームワークは人間の決定力学をモデル化するために導入された。
次に、最大確率推定に基づく模倣学習(il)を用いて、人間の決定を観察状態にマップするニューラルネットワーク(nn)を訓練する。
その結果、受動的模倣は実質的に人間に劣ることが示された。
我々は,事前学習されたネットワークから学ぶのに適したオンポリシーアルゴリズムを用いて,強化学習(rl)によって人間に着想を得たポリシーをさらに洗練する。
ILとRLの組み合わせは人間の結果と一致し、優れた性能は環境の自我中心的な表現に強く依存していることを示す。
開発手法は、オープンフィールド環境でミッションを解決しなければならない無人車両のポリシーを効率的に学習するために使用することができる。
関連論文リスト
- Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - End-to-end grasping policies for human-in-the-loop robots via deep
reinforcement learning [24.407804468007228]
最新の人間インザループロボットの把握は、EMG(Electromy robustness)推論の問題に大きく苦しんでいます。
本研究では,現実の到達軌道を捉えたループ内ロボットのポリシーをエンドツーエンドでトレーニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-26T19:39:23Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Human-guided Robot Behavior Learning: A GAN-assisted Preference-based
Reinforcement Learning Approach [2.9764834057085716]
本稿では,新しいGAN支援人間嗜好に基づく強化学習手法を提案する。
GAN(Generative Adversarial Network)を使用して、人間の嗜好を積極的に学習し、選好を割り当てる際の人間の役割を置き換える。
本手法は, 性能犠牲を伴わずに, 約99.8%の人的時間を短縮することができる。
論文 参考訳(メタデータ) (2020-10-15T01:44:06Z) - Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning
Systems [0.8223798883838329]
本研究では,人間同士の相互作用を強化学習ループに組み込む方法について検討する。
その結果,人間同士の相互作用に基づいて学習した報奨信号は,強化学習アルゴリズムの学習速度を加速させることがわかった。
論文 参考訳(メタデータ) (2020-08-30T17:28:18Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。