論文の概要: Reinforced Imitation Learning by Free Energy Principle
- arxiv url: http://arxiv.org/abs/2107.11811v1
- Date: Sun, 25 Jul 2021 14:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 00:51:34.403938
- Title: Reinforced Imitation Learning by Free Energy Principle
- Title(参考訳): 自由エネルギー原理による強化模倣学習
- Authors: Ryoya Ogishima, Izumi Karino, Yasuo Kuniyoshi
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、特にスパース・リワード・セッティングにおいて、大量の探索を必要とする。
イミテーション・ラーニング(IL)は、専門家によるデモンストレーションから探究なしで学ぶことができる。
自由エネルギー原理(FEP)に基づくRLとILを根本的に統一する
- 参考スコア(独自算出の注目度): 2.9327503320877457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) requires a large amount of exploration especially
in sparse-reward settings. Imitation Learning (IL) can learn from expert
demonstrations without exploration, but it never exceeds the expert's
performance and is also vulnerable to distributional shift between
demonstration and execution. In this paper, we radically unify RL and IL based
on Free Energy Principle (FEP). FEP is a unified Bayesian theory of the brain
that explains perception, action and model learning by a common fundamental
principle. We present a theoretical extension of FEP and derive an algorithm in
which an agent learns the world model that internalizes expert demonstrations
and at the same time uses the model to infer the current and future states and
actions that maximize rewards. The algorithm thus reduces exploration costs by
partially imitating experts as well as maximizing its return in a seamless way,
resulting in a higher performance than the suboptimal expert. Our experimental
results show that this approach is promising in visual control tasks especially
in sparse-reward environments.
- Abstract(参考訳): 強化学習(rl)は、特にスパースワード設定において、大量の探索を必要とする。
シミュレーション学習(IL)は、専門家のデモンストレーションから探究なしで学ぶことができるが、専門家のパフォーマンスを超えず、デモンストレーションと実行の間の分散シフトにも脆弱である。
本稿では,自由エネルギー原理(FEP)に基づくRLとILを根本的に統一する。
FEPは、認知、行動、モデル学習を共通の原理で説明する、脳のベイズ理論である。
本稿では,fepの理論的拡張と,エージェントがエキスパートデモを内部化する世界モデルを学ぶアルゴリズムの導出と,そのモデルを用いて報酬を最大化する現在の状態と将来の状態と行動を推測する手法を提案する。
したがって、このアルゴリズムは、専門家を部分的に模倣し、そのリターンをシームレスに最大化することで探索コストを削減し、その結果、準最適専門家よりも高いパフォーマンスをもたらす。
実験の結果,このアプローチは視覚制御タスク,特にスパースワード環境において有望であることがわかった。
関連論文リスト
- Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Imitation Learning from Observation through Optimal Transport [25.398983671932154]
イミテーション・ラーニング・オブ・オブ・オブ・オブ・観察(ILfO)は、学習者が専門家の行動を模倣しようとする環境である。
学習モデルや逆学習を必要とせずに、既存の手法を単純化して報酬関数を生成することができることを示す。
我々は,このシンプルな手法が様々な連続制御タスクに対して有効であることを示し,IlfO設定の技法の状態を超越していることを見出した。
論文 参考訳(メタデータ) (2023-10-02T20:53:20Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Deep Active Learning by Leveraging Training Dynamics [57.95155565319465]
本稿では,学習力学を最大化するためにサンプルを選択する理論駆動型深層能動学習法(Dynamical)を提案する。
動的学習は、他のベースラインを一貫して上回るだけでなく、大規模なディープラーニングモデルでもうまくスケール可能であることを示す。
論文 参考訳(メタデータ) (2021-10-16T16:51:05Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z) - Energy-Based Imitation Learning [29.55675131809474]
我々は、エージェントが専門家によるデモンストレーションから最適なポリシーを回復しようとする模倣学習(IL)の一般的なシナリオに取り組む。
本稿では,エネルギーベースモデル(EBM)の最近の進歩に触発されて,エネルギーベース・イミテーション・ラーニング(EBIL)というシンプルなILフレームワークを提案する。
EBIL は EBM と cccupancy measure matching の両概念を組み合わせており、理論解析により EBIL と Max-Entropy IRL (MaxEnt IRL) のアプローチが同じコインの2つの側面であることを明らかにする。
論文 参考訳(メタデータ) (2020-04-20T15:49:35Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。