論文の概要: Reinforcement Learning with Supervision from Noisy Demonstrations
- arxiv url: http://arxiv.org/abs/2006.07808v1
- Date: Sun, 14 Jun 2020 06:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 09:50:12.268712
- Title: Reinforcement Learning with Supervision from Noisy Demonstrations
- Title(参考訳): 騒音実演による強化学習
- Authors: Kun-Peng Ning and Sheng-Jun Huang
- Abstract要約: 本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
- 参考スコア(独自算出の注目度): 38.00968774243178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has achieved great success in various applications. To
learn an effective policy for the agent, it usually requires a huge amount of
data by interacting with the environment, which could be computational costly
and time consuming. To overcome this challenge, the framework called
Reinforcement Learning with Expert Demonstrations (RLED) was proposed to
exploit the supervision from expert demonstrations. Although the RLED methods
can reduce the number of learning iterations, they usually assume the
demonstrations are perfect, and thus may be seriously misled by the noisy
demonstrations in real applications. In this paper, we propose a novel
framework to adaptively learn the policy by jointly interacting with the
environment and exploiting the expert demonstrations. Specifically, for each
step of the demonstration trajectory, we form an instance, and define a joint
loss function to simultaneously maximize the expected reward and minimize the
difference between agent behaviors and demonstrations. Most importantly, by
calculating the expected gain of the value function, we assign each instance
with a weight to estimate its potential utility, and thus can emphasize the
more helpful demonstrations while filter out noisy ones. Experimental results
in various environments with multiple popular reinforcement learning algorithms
show that the proposed approach can learn robustly with noisy demonstrations,
and achieve higher performance in fewer iterations.
- Abstract(参考訳): 強化学習は様々な分野で大きな成功を収めた。
エージェントの効果的なポリシーを学ぶには、通常、計算コストと時間のかかる環境と相互作用することで大量のデータを必要とする。
この課題を克服するために、専門家デモから監督を活用すべく、RLED(Reinforcement Learning with Expert Demonstrations)と呼ばれるフレームワークが提案された。
RLED法は学習の繰り返し回数を減らすことができるが、彼らは通常デモが完璧であると仮定し、実際のアプリケーションにおけるノイズの多いデモによって深刻な誤解を招く可能性がある。
本稿では,環境と協調して対話し,専門家による実証を活用し,政策を適応的に学習する新しい枠組みを提案する。
具体的には, 実演軌道の各ステップにおいて, インスタンスを作成し, 期待報酬を最大化し, エージェントの行動と実演の差異を最小化する共同損失関数を定義する。
最も重要なことは、期待される値関数のゲインを計算することで、各インスタンスにその潜在的なユーティリティを見積もるために重みを割り当て、ノイズの多いものをフィルタしながらより有用なデモを強調することができる。
複数の強化学習アルゴリズムを用いた様々な環境における実験結果から,提案手法は雑音の少ない実演で頑健に学習でき,少ないイテレーションで高い性能が得られることがわかった。
関連論文リスト
- "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - A Survey of Demonstration Learning [0.0]
実証学習(Demonstration Learning)は、エージェントがデモンストレーションで示された専門家の行動を模倣してタスクを実行することを学習するパラダイムである。
デモから複雑な振る舞いを学ぶ大きな可能性を秘めているため、大きな注目を集めている。
環境と対話することなく学習することで、デモ学習はロボット工学や医療といった幅広い現実世界の応用を自動化できる。
論文 参考訳(メタデータ) (2023-03-20T15:22:10Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Sample Efficient Imitation Learning via Reward Function Trained in
Advance [2.66512000865131]
イミテーションラーニング(IL)は、実証から専門家の行動を模倣することを学ぶフレームワークである。
本稿では,逆強化学習の新たな手法を導入することで,サンプル効率の向上に尽力する。
論文 参考訳(メタデータ) (2021-11-23T08:06:09Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Robust Maximum Entropy Behavior Cloning [15.713997170792842]
模倣学習(il)アルゴリズムは、特定のタスクを学ぶために専門家のデモンストレーションを使用する。
既存のアプローチのほとんどは、すべての専門家によるデモンストレーションは信頼性と信頼性を前提としていますが、もし与えられたデータセットに敵対的なデモが存在するとしたらどうでしょう?
敵対するデモを自律的に検出し、データセットから除外するデモからポリシーを直接生成する、新しい一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T22:08:46Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。