論文の概要: Reinforcement Learning via Reasoning from Demonstration
- arxiv url: http://arxiv.org/abs/2004.05512v1
- Date: Sun, 12 Apr 2020 00:41:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 04:54:39.441455
- Title: Reinforcement Learning via Reasoning from Demonstration
- Title(参考訳): 実演による推論による強化学習
- Authors: Lisa Torrey
- Abstract要約: デモは、人間が強化学習エージェントに支援を提供するための魅力的な方法である。
本稿では、この人間にインスパイアされた方法でのデモンストレーションから恩恵を受けるエージェントのためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Demonstration is an appealing way for humans to provide assistance to
reinforcement-learning agents. Most approaches in this area view demonstrations
primarily as sources of behavioral bias. But in sparse-reward tasks, humans
seem to treat demonstrations more as sources of causal knowledge. This paper
proposes a framework for agents that benefit from demonstration in this
human-inspired way. In this framework, agents develop causal models through
observation, and reason from this knowledge to decompose tasks for effective
reinforcement learning. Experimental results show that a basic implementation
of Reasoning from Demonstration (RfD) is effective in a range of sparse-reward
tasks.
- Abstract(参考訳): デモは、人間が強化学習エージェントに支援を提供するための魅力的な方法である。
この領域のほとんどのアプローチは、主に行動バイアスの源としてデモを見ている。
しかし、疎遠なタスクでは、人間はデモをより因果知識の源として扱うように見える。
本稿では,人間にインスパイアされた方法でのデモンストレーションの恩恵を受けるエージェントのためのフレームワークを提案する。
この枠組みでは、エージェントは観察を通して因果モデルを構築し、この知識から効果的な強化学習のためのタスクを分解する。
実験結果から,Reasoning from Demonstration (RfD) の基本的な実装は,スパース・リワードタスクに有効であることが示唆された。
関連論文リスト
- Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Boosting Reinforcement Learning and Planning with Demonstrations: A
Survey [25.847796336059343]
シーケンシャルな意思決定にデモを使うことの利点について論じる。
我々は,最近提案されたManiSkillロボット学習ベンチマークにおいて,デモの生成と活用のための実用的なパイプラインを実演する。
論文 参考訳(メタデータ) (2023-03-23T17:53:44Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Robust Imitation of a Few Demonstrations with a Backwards Model [3.8530020696501794]
専門家によるデモンストレーションの行動クローニングは、強化学習よりもよりサンプル効率のよい学習ポリシーを高速化することができる。
実験の周囲のアトラクションの領域を拡大することで、エージェントがオフコースを走行した場合に、実証軌道に戻す方法を学ぶことができるようにすることで、この問題に対処する。
最適あるいは準最適の実証では、学習されたポリシーは、偏差に対して最適かつ堅牢であり、より広いアトラクション領域を持つ。
論文 参考訳(メタデータ) (2022-10-17T18:02:19Z) - Extraneousness-Aware Imitation Learning [25.60384350984274]
Extraneousness-Aware Learning (EIL)は、外部サブシーケンスを用いた第三者によるデモンストレーションから、ビズモタポリシーを学ぶ。
EILは、自己監督された方法で行動条件付き観察埋め込みを学習し、視覚的なデモンストレーション全体にわたってタスク関連観測を検索する。
実験の結果、EILは強いベースラインを上回り、完璧なデモで訓練した人たちと同等のポリシーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-04T04:42:26Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning from Ambiguous Demonstrations with Self-Explanation Guided
Reinforcement Learning [20.263419567168388]
本研究の目的は、強化学習(RL)エージェントの訓練にあいまいなデモンストレーションを効果的に活用することである。
このような状況を人間がどう扱うかに触発されて、我々は価値ある高レベルな関係性の特徴を認識するために自己説明を使うことを提案する。
我々の主な貢献は、従来のRLfD作品の限界を克服できるDemonstrations (SERLfD)フレームワークからの自己説明(Self-Explanation for RL)を提案することである。
論文 参考訳(メタデータ) (2021-10-11T13:59:48Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。