論文の概要: Predictive Coding Enhances Meta-RL To Achieve Interpretable Bayes-Optimal Belief Representation Under Partial Observability
- arxiv url: http://arxiv.org/abs/2510.22039v1
- Date: Fri, 24 Oct 2025 21:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.934218
- Title: Predictive Coding Enhances Meta-RL To Achieve Interpretable Bayes-Optimal Belief Representation Under Partial Observability
- Title(参考訳): 予測符号化によるメタRLによる解釈可能なベイズ最適表現の実現
- Authors: Po-Chen Kuo, Han Hou, Will Dabney, Edgar Y. Walker,
- Abstract要約: 歴史のコンパクトな表現を学ぶことは、部分的に観察可能な環境における計画と一般化にとって重要である。
メタ強化学習(RL)エージェントはベイズ最適政策に近づき得るが、しばしばコンパクトで解釈可能なベイズ最適信念状態の学習に失敗する。
本稿では,自己教師付き予測符号化モジュールをメタRLに統合することで,ベイズ最適表現の学習が容易になるかどうかを検討する。
- 参考スコア(独自算出の注目度): 10.548824172738227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a compact representation of history is critical for planning and generalization in partially observable environments. While meta-reinforcement learning (RL) agents can attain near Bayes-optimal policies, they often fail to learn the compact, interpretable Bayes-optimal belief states. This representational inefficiency potentially limits the agent's adaptability and generalization capacity. Inspired by predictive coding in neuroscience--which suggests that the brain predicts sensory inputs as a neural implementation of Bayesian inference--and by auxiliary predictive objectives in deep RL, we investigate whether integrating self-supervised predictive coding modules into meta-RL can facilitate learning of Bayes-optimal representations. Through state machine simulation, we show that meta-RL with predictive modules consistently generates more interpretable representations that better approximate Bayes-optimal belief states compared to conventional meta-RL across a wide variety of tasks, even when both achieve optimal policies. In challenging tasks requiring active information seeking, only meta-RL with predictive modules successfully learns optimal representations and policies, whereas conventional meta-RL struggles with inadequate representation learning. Finally, we demonstrate that better representation learning leads to improved generalization. Our results strongly suggest the role of predictive learning as a guiding principle for effective representation learning in agents navigating partial observability.
- Abstract(参考訳): 歴史のコンパクトな表現を学ぶことは、部分的に観察可能な環境における計画と一般化にとって重要である。
メタ強化学習(英語版) (RL) エージェントはベイズ最適政策の近くに到達することができるが、しばしばコンパクトで解釈可能なベイズ最適信念状態の学習に失敗する。
この表現的非効率性は、エージェントの適応性と一般化能力を制限する可能性がある。
脳がベイズ推論の神経的実装として感覚入力を予測することを示唆する神経科学における予測的コーディングから着想を得て,我々は,自己制御型予測的コーディングモジュールをメタRLに統合することで,ベイズ最適表現の学習が容易になるかどうかを考察した。
状態機械シミュレーションにより、予測モジュールを持つメタRLは、最適ポリシーを達成しても、従来のメタRLと比較してベイズ最適信念状態をよりよく近似する解釈可能な表現を一貫して生成することを示した。
アクティブな情報探索を必要とする課題において、予測モジュールを持つメタRLのみが最適な表現とポリシーをうまく学習するのに対し、従来のメタRLは表現学習が不十分である。
最後に、より優れた表現学習が一般化に繋がることを示す。
本研究は, 半可観測性をもつエージェントの効果的な表現学習の指針として, 予測学習が果たす役割を強く示唆する。
関連論文リスト
- Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective [52.38531288378491]
強化学習(RL)法は大規模言語モデル(LLM)の計画能力を大幅に向上させた
本研究では,RLの利点と制約をグラフに基づく抽出により検討する。
我々の理論的分析から, 教師付き微調整(SFT)は共起性に基づく突発性解を導入しうるが, RLは探索によって正しい計画を立てる。
論文 参考訳(メタデータ) (2025-09-26T17:39:48Z) - ContraBAR: Contrastive Bayes-Adaptive Deep RL [22.649531458557206]
メタ強化学習(メタRL)では、エージェントが未知のタスクに直面するときの最適なポリシーであるベイズ最適ポリシーを求める。
ベイズ最適行動の学習にコントラスト法が有効かどうかを検討する。
本稿では,変分的信念推論の代わりにコントラスト的予測符号化(CPC)を用いる単純なメタRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-04T17:50:20Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Meta-trained agents implement Bayes-optimal agents [13.572630988699572]
メモリベースメタラーニングはベイズ最適エージェントを数値的に近似する手法として有用であることを示す。
その結果,記憶に基づくメタラーニングはベイズ最適エージェントを数値的に近似する一般的な手法である可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-21T18:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。