論文の概要: Prior Preference Learning from Experts:Designing a Reward with Active
Inference
- arxiv url: http://arxiv.org/abs/2101.08937v2
- Date: Tue, 9 Feb 2021 05:02:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 17:21:42.554711
- Title: Prior Preference Learning from Experts:Designing a Reward with Active
Inference
- Title(参考訳): 専門家からの優先学習:アクティブ推論によるリワードの設計
- Authors: Jinyoung Shin, Cheolhyeong Kim, Hyung Ju Hwang
- Abstract要約: 能動推論は強化学習(RL)アルゴリズムを用いて解釈できると主張している。
先行選好の概念と理論的連関に動機づけられ,専門家から先行選好を学ぶための単純だが新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.1602089225841632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active inference may be defined as Bayesian modeling of a brain with a
biologically plausible model of the agent. Its primary idea relies on the free
energy principle and the prior preference of the agent. An agent will choose an
action that leads to its prior preference for a future observation. In this
paper, we claim that active inference can be interpreted using reinforcement
learning (RL) algorithms and find a theoretical connection between them. We
extend the concept of expected free energy (EFE), which is a core quantity in
active inference, and claim that EFE can be treated as a negative value
function. Motivated by the concept of prior preference and a theoretical
connection, we propose a simple but novel method for learning a prior
preference from experts. This illustrates that the problem with inverse RL can
be approached with a new perspective of active inference. Experimental results
of prior preference learning show the possibility of active inference with
EFE-based rewards and its application to an inverse RL problem.
- Abstract(参考訳): 活性推論は、生物学的に妥当なエージェントモデルを持つ脳のベイズ的モデリングとして定義される。
その第一の考え方は、自由エネルギー原理とエージェントの事前選好に依存する。
エージェントは、将来の観察を優先するアクションを選択する。
本稿では,能動推論を強化学習(rl)アルゴリズムを用いて解釈し,それらの理論的な関係を見出すことができると主張する。
本研究では, 期待自由エネルギー(EFE)の概念を拡張し, EFEを負の値関数として扱うことができると主張している。
先行選好の概念と理論的連関に動機づけられ,専門家から先行選好を学ぶための単純だが新しい手法を提案する。
このことは、逆 RL の問題は、アクティブな推論の新しい視点でアプローチできることを示している。
事前選好学習の実験結果から、EFEに基づく報酬による能動推論の可能性とその逆RL問題への応用が示された。
関連論文リスト
- Value of Information and Reward Specification in Active Inference and POMDPs [7.120454740315046]
期待される自由エネルギー(EFE)は、活動的推論の中心的な量である。
EFEは情報値を用いてベイズ最適RLポリシーを近似することを示す。
論文 参考訳(メタデータ) (2024-08-13T00:32:05Z) - A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - Active Inference as a Model of Agency [1.9019250262578857]
生物エージェントが世界とどのように相互作用するかという物理的に健全な仮定に従う行動は、探索と搾取を統合していることを示す。
能動推論として知られるこの記述は、神経科学から派生した行動と知覚のための一般的な記述的枠組みである自由エネルギー原理を洗練させる。
論文 参考訳(メタデータ) (2024-01-23T17:09:25Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - A Neural Active Inference Model of Perceptual-Motor Learning [62.39667564455059]
アクティブ推論フレームワーク(英: active inference framework、AIF)は、現代の神経科学を基盤とした、有望な新しい計算フレームワークである。
本研究では,ヒトの視覚行動指導において,AIFが期待する役割を捉える能力をテストする。
本稿では,多次元世界状態から自由エネルギーの一次元分布にマッピングする先行関数の新たな定式化について述べる。
論文 参考訳(メタデータ) (2022-11-16T20:00:38Z) - The Free Energy Principle for Perception and Action: A Deep Learning
Perspective [4.6956495676681484]
自由エネルギーの原理とその論理的活動的推論は、生物エージェントが世界の優先状態の制限されたセットに留まっていると仮定するバイオインスパイアされた理論を構成する。
この原則の下で、生物学的エージェントは世界の生成モデルを学び、その嗜好を満たすホメオスタティックな状態にエージェントを維持できる将来的なアクションを計画する。
この写本は、より現実的な問題に理論的側面を根ざして、活発な推論の枠組みに対する新たな視点を探求している。
論文 参考訳(メタデータ) (2022-07-13T11:07:03Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Contrastive Active Inference [12.361539023886161]
本稿では,エージェントの生成モデル学習における計算負担を低減し,今後の行動計画を行うための,アクティブ推論のための対照的な目的を提案する。
提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。
論文 参考訳(メタデータ) (2021-10-19T16:20:49Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。