論文の概要: Boosting MCTS with Free Energy Minimization
- arxiv url: http://arxiv.org/abs/2501.13083v1
- Date: Wed, 22 Jan 2025 18:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:58.696068
- Title: Boosting MCTS with Free Energy Minimization
- Title(参考訳): 自由エネルギー最小化によるMCTSの強化
- Authors: Mawaba Pascal Dao, Adrian Peter,
- Abstract要約: 我々はモンテカルロ木探索(MCTS)をアクティブな推論対象と統合する新しい計画フレームワークを提案する。
MCTSは、期待される報酬と情報ゲインをブレンドすることで、自由エネルギーの最小化を組み込むように自然に拡張することができる。
このシナジーにより、プランナーは計算的トラクタビリティを犠牲にすることなく、計画全体の価値と不確実性のコヒーレントな見積を維持できる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Active Inference, grounded in the Free Energy Principle, provides a powerful lens for understanding how agents balance exploration and goal-directed behavior in uncertain environments. Here, we propose a new planning framework, that integrates Monte Carlo Tree Search (MCTS) with active inference objectives to systematically reduce epistemic uncertainty while pursuing extrinsic rewards. Our key insight is that MCTS already renowned for its search efficiency can be naturally extended to incorporate free energy minimization by blending expected rewards with information gain. Concretely, the Cross-Entropy Method (CEM) is used to optimize action proposals at the root node, while tree expansions leverage reward modeling alongside intrinsic exploration bonuses. This synergy allows our planner to maintain coherent estimates of value and uncertainty throughout planning, without sacrificing computational tractability. Empirically, we benchmark our planner on a diverse set of continuous control tasks, where it demonstrates performance gains over both standalone CEM and MCTS with random rollouts.
- Abstract(参考訳): アクティブ推論はフリーエネルギー原理に基づいており、エージェントが不確実な環境で探索とゴール指向の行動のバランスをとる方法を理解するための強力なレンズを提供する。
本稿では,モンテカルロ木探索(MCTS)とアクティブな推定目標を統合して,外因性報酬を追求しながら,先天的不確実性を体系的に低減する新しい計画枠組みを提案する。
我々の重要な洞察は、MCTSが検索効率ですでに知られていることを自然に拡張して、期待される報酬と情報ゲインをブレンドすることによって、自由エネルギーの最小化を組み込むことである。
具体的には、CEM(Cross-Entropy Method)はルートノードでのアクション提案を最適化するために使用され、ツリー拡張は本質的な探索ボーナスと共に報酬モデリングを利用する。
このシナジーにより、プランナーは計算的トラクタビリティを犠牲にすることなく、計画全体の価値と不確実性のコヒーレントな見積を維持できる。
実験的に、我々はプランナーを多種多様な連続制御タスクにベンチマークし、ランダムなロールアウトでスタンドアロンのCEMとMCTSの両方のパフォーマンス向上を示す。
関連論文リスト
- Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。
モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - Improving Intrinsic Exploration by Creating Stationary Objectives [10.10653698568421]
本稿では,SOFE(Stationary Objectives For Exploration)フレームワークについて紹介する。
また,SOFEは,カウントベースのボーナス,擬似カウント,状態エントロピーなど,いくつかの探索目標の性能を改善していることを示す。
スパースナビゲーション,画素ベースの観察,3次元ナビゲーション,手続き的に生成された環境など,難解な問題に対するSOFEの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-27T13:51:18Z) - Sample-efficient Real-time Planning with Curiosity Cross-Entropy Method
and Contrastive Learning [21.995159117991278]
そこで我々はCuriosity CEMを提案する。Curiosity CEMはCEM(Cross-Entropy Method)アルゴリズムの改良版である。
提案手法は,計画地平線上の状態-作用Q値の総和を最大化し,これらのQ値が将来の外因性および内因性報酬を推定する。
DeepMind Controlスイートによるイメージベース連続制御タスクの実験では、CCEMは以前のMBRLアルゴリズムよりも大きなマージンでサンプリング効率が高いことが示されている。
論文 参考訳(メタデータ) (2023-03-07T10:48:20Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Mitigating Out-of-Distribution Data Density Overestimation in
Energy-Based Models [54.06799491319278]
深部エネルギーベースモデル(EBM)は、複雑な分布を学習する能力によって注目されている。
EBMの訓練には、Langevin Monte Carlo (LMC) を用いた最大推定(MLE)を用いることが多い。
短周期LCCのMLEが, 誤った密度推定でEMMに収束する理由を考察する。
論文 参考訳(メタデータ) (2022-05-30T02:49:17Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z) - Risk-Aware Energy Scheduling for Edge Computing with Microgrid: A
Multi-Agent Deep Reinforcement Learning Approach [82.6692222294594]
マイクログリッドを用いたMECネットワークにおけるリスク対応エネルギースケジューリング問題について検討する。
ニューラルネットワークを用いたマルチエージェントディープ強化学習(MADRL)に基づくアドバンテージアクター・クリティック(A3C)アルゴリズムを適用し,その解を導出する。
論文 参考訳(メタデータ) (2020-02-21T02:14:38Z) - Reward Tweaking: Maximizing the Total Reward While Planning for Short
Horizons [66.43848057122311]
Reward tweakingは、元の有限水平全報酬タスクに対して最適な振る舞いを誘導する代理報酬関数を学習する。
報酬の調整は、短い地平線を計画しているにもかかわらず、エージェントがより長い水平方向のリターンに導くことを示す。
論文 参考訳(メタデータ) (2020-02-09T09:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。