論文の概要: Active Inference for Autonomous Decision-Making with Contextual
Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2209.09185v1
- Date: Mon, 19 Sep 2022 17:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 20:16:03.647541
- Title: Active Inference for Autonomous Decision-Making with Contextual
Multi-Armed Bandits
- Title(参考訳): コンテキスト多要素帯域を用いた自律的意思決定のためのアクティブ推論
- Authors: Shohei Wakayama and Nisar Ahmed
- Abstract要約: 不確実性の下での自律的なロボット意思決定では、搾取と利用可能な選択肢の探索のトレードオフを考慮する必要がある。
本研究では,近年神経科学の分野で積極的に研究されている能動推論をCMABの代替行動選択戦略として応用する。
- 参考スコア(独自算出の注目度): 1.3670071336891754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous robotic decision-making under uncertainty, the tradeoff between
exploitation and exploration of available options must be considered. If
secondary information associated with options can be utilized, such
decision-making problems can often be formulated as a contextual multi-armed
bandits (CMABs). In this study, we apply active inference, which has been
actively studied in the field of neuroscience in recent years, as an
alternative action selection strategy for CMABs. Unlike conventional action
selection strategies, it is possible to rigorously evaluate the uncertainty of
each option when calculating the expected free energy (EFE) associated with the
decision agent's probabilistic model, as derived from the free-energy
principle. We specifically address the case where a categorical observation
likelihood function is used, such that EFE values are analytically intractable.
We introduce new approximation methods for computing the EFE based on
variational and Laplace approximations. Extensive simulation study results
demonstrate that, compared to other strategies, active inference generally
requires far fewer iterations to identify optimal options and generally
achieves superior cumulative regret, for relatively low extra computational
cost.
- Abstract(参考訳): 不確実性の下での自律的なロボット意思決定では、搾取と利用可能な選択肢の探索のトレードオフを考慮する必要がある。
オプションに関連する二次情報が利用できる場合、そのような意思決定問題は文脈的マルチアーム・バンディット(CMAB)として定式化されることが多い。
本研究では,近年,神経科学の分野で積極的に研究されている能動的推論を,cmabsの代替行動選択戦略として応用する。
従来の行動選択戦略とは異なり、自由エネルギー原理から導かれた決定エージェントの確率モデルに関連する期待自由エネルギー(efe)を計算する場合、各オプションの不確かさを厳密に評価することができる。
具体的には、EFE値が解析的に抽出可能であるような分類学的観察可能性関数が用いられる場合に対処する。
本稿では,変分近似とラプラス近似に基づく新しいEFE計算法を提案する。
大規模なシミュレーション研究の結果は、他の戦略と比較して、アクティブ推論は一般的に最適な選択肢を特定するためにはるかに少ないイテレーションを必要とし、比較的低い計算コストでより優れた累積後悔を達成することを示した。
関連論文リスト
- An Efficient Approach for Solving Expensive Constrained Multiobjective Optimization Problems [0.0]
効率的な確率的選択に基づく制約付き多目的EAをPSCMOEAと呼ぶ。
a) 評価された解の実現可能性と収束状態に基づく適応探索境界同定スキームのような新しい要素を含む。
ECMOPを模擬する低評価予算を用いて, 幅広い制約付き問題に対して, 数値実験を行った。
論文 参考訳(メタデータ) (2024-05-22T02:32:58Z) - Globally-Optimal Greedy Experiment Selection for Active Sequential
Estimation [1.1530723302736279]
逐次的に収集したデータの実験を適応的に選択するアクティブシーケンシャル推定の問題について検討する。
目標は、より正確なモデル推定のための実験選択ルールを設計することである。
そこで本稿では,グリーディ実験の選択手法のクラスを提案し,最大可能性の統計的解析を行う。
論文 参考訳(メタデータ) (2024-02-13T17:09:29Z) - Observation-Augmented Contextual Multi-Armed Bandits for Robotic
Exploration with Uncertain Semantic Data [7.795929277007235]
観測拡張CMAB(OA-CMABs)と呼ばれるコンテキスト型マルチアームバンディットを新たに導入する。
OA-CMABは、コンテキスト特徴と隠れパラメータの関数として期待される選択肢の結果をモデル化する。
本稿では確率的データ検証の概念に基づくOA-CMABに対する頑健なベイズ推論プロセスを提案する。
論文 参考訳(メタデータ) (2023-12-19T20:28:42Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。
統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文 参考訳(メタデータ) (2021-12-27T02:53:44Z) - Pseudo-Spherical Contrastive Divergence [119.28384561517292]
エネルギーベースモデルの最大学習確率を一般化するために,擬球面コントラスト分散(PS-CD)を提案する。
PS-CDは難解な分割関数を避け、学習目的の一般化されたファミリーを提供する。
論文 参考訳(メタデータ) (2021-11-01T09:17:15Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。