論文の概要: Combining information-seeking exploration and reward maximization:
Unified inference on continuous state and action spaces under partial
observability
- arxiv url: http://arxiv.org/abs/2212.07946v1
- Date: Thu, 15 Dec 2022 16:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:06:04.299321
- Title: Combining information-seeking exploration and reward maximization:
Unified inference on continuous state and action spaces under partial
observability
- Title(参考訳): 情報探索探索と報酬最大化の組み合わせ:部分観測可能性下での連続状態と行動空間の統一推論
- Authors: Parvin Malekzadeh and Konstantinos N. Plataniotis
- Abstract要約: 多くの実世界の問題は、エージェントが環境の真で完全な状態を受け取らない自然によって部分的に、あるいはノイズ的に観測可能である。
このような問題は、部分的に観測可能な決定プロセス(POMDP)として定式化される。
いくつかの研究は、以前の決定や観察を思い出したり、受信した観測から環境の本当の状態を推測することで、PMDPに適用した。
本稿では,共同情報検索と報酬の統一原則を提案し,アクティブ推論とRLを統一し,それらの制限を克服する。
- 参考スコア(独自算出の注目度): 36.780831727558414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) gained considerable attention by creating
decision-making agents that maximize rewards received from fully observable
environments. However, many real-world problems are partially or noisily
observable by nature, where agents do not receive the true and complete state
of the environment. Such problems are formulated as partially observable Markov
decision processes (POMDPs). Some studies applied RL to POMDPs by recalling
previous decisions and observations or inferring the true state of the
environment from received observations. Nevertheless, aggregating observations
and decisions over time is impractical for environments with high-dimensional
continuous state and action spaces. Moreover, so-called inference-based RL
approaches require large number of samples to perform well since agents eschew
uncertainty in the inferred state for the decision-making. Active inference is
a framework that is naturally formulated in POMDPs and directs agents to select
decisions by minimising expected free energy (EFE). This supplies
reward-maximising (exploitative) behaviour in RL, with an information-seeking
(exploratory) behaviour. Despite this exploratory behaviour of active
inference, its usage is limited to discrete state and action spaces due to the
computational difficulty of the EFE. We propose a unified principle for joint
information-seeking and reward maximization that clarifies a theoretical
connection between active inference and RL, unifies active inference and RL,
and overcomes their aforementioned limitations. Our findings are supported by
strong theoretical analysis. The proposed framework's superior exploration
property is also validated by experimental results on partial observable tasks
with high-dimensional continuous state and action spaces. Moreover, the results
show that our model solves reward-free problems, making task reward design
optional.
- Abstract(参考訳): 強化学習(RL)は、完全に観察可能な環境から得られる報酬を最大化する意思決定エージェントを作成することで大きな注目を集めた。
しかし、現実世界の多くの問題は、エージェントが真かつ完全な環境状態を受け取らない自然界では、部分的にまたは異常に観察可能である。
このような問題は部分可観測マルコフ決定プロセス(pomdps)として定式化されている。
いくつかの研究では、以前の決定や観測を思い出したり、受信した観測から環境の本当の状態を推測することで、RLをPMDPに適用した。
しかし、高次元の連続状態と行動空間を持つ環境においては、時間とともに観測と決定を集約することは現実的ではない。
さらに、推論に基づくRLアプローチは、エージェントが推論された状態における不確実性を判断するために、多くのサンプルを必要とする。
アクティブ推論(Active Inference)は、PMDPで自然に定式化され、期待される自由エネルギー(EFE)を最小化することによってエージェントに決定を指示するフレームワークである。
これにより、RLにおける報酬最大化(探索的)な振る舞いと情報探索(探索的)な振る舞いが提供される。
能動推論の探索的な振る舞いにもかかわらず、EFEの計算困難さのため、その用途は離散状態と行動空間に限られる。
本稿では,アクティブ推論とRLの理論的関係を明確にし,アクティブ推論とRLを統一し,上記の制限を克服する共同情報探索と報酬最大化の統一原理を提案する。
我々の発見は強い理論分析によって裏付けられている。
また,高次元連続状態および動作空間を有する部分観測可能タスクの実験結果により,提案手法の優れた探索特性が検証された。
さらに,本モデルでは報酬のない問題を解き,タスク報酬設計を任意にする。
関連論文リスト
- Free Energy Projective Simulation (FEPS): Active inference with interpretability [40.11095094521714]
FEP(Free Energy Projective Simulation)とAIF(Active Inference)は、多くの成功を収めている。
最近の研究は、最新の機械学習技術を取り入れた複雑な環境におけるエージェントの性能向上に重点を置いている。
ディープニューラルネットワークを使わずに解釈可能な方法でエージェントをモデル化するための自由エネルギー射影シミュレーション(FEPS)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:01:44Z) - Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - Assessing the Impact of Distribution Shift on Reinforcement Learning
Performance [0.0]
強化学習(RL)は独自の課題に直面する。
点推定と訓練中の最適方針への収束を成功させるプロットの比較は、実験装置への過度な適合や依存を阻害する可能性がある。
本稿では,分散シフト下でのRLアルゴリズムのロバスト性を評価するための評価手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T23:50:55Z) - Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文 参考訳(メタデータ) (2023-05-02T19:13:10Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Reinforcement Learning under Partial Observability Guided by Learned
Environment Models [1.1470070927586016]
本稿では,部分観測可能な環境における強化学習(RL)のアプローチを提案する。
提案手法は,マルコフ決定過程の学習方法であるIoAlergiaとQ-ラーニングを組み合わせたものである。
本稿では,6つの最先端深部RL技術と比較して,本手法の有効性と有望な性能について報告する。
論文 参考訳(メタデータ) (2022-06-23T13:55:13Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。