論文の概要: Active Inference with Reusable State-Dependent Value Profiles
- arxiv url: http://arxiv.org/abs/2512.11829v1
- Date: Wed, 03 Dec 2025 04:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.700766
- Title: Active Inference with Reusable State-Dependent Value Profiles
- Title(参考訳): 再利用可能な状態依存値プロファイルを用いたアクティブ推論
- Authors: Jacob Poschl,
- Abstract要約: 生成モデルにおける隠れ状態に割り当てられた値関連パラメータの小さな再利用可能なバンドル。
この枠組みを確率論的逆転学習において評価し,静的精度,エントロピー結合動的精度,プロファイルベースモデルを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive behavior in volatile environments requires agents to switch among value-control regimes across latent contexts, but maintaining separate preferences, policy biases, and action-confidence parameters for every situation is intractable. We introduce value profiles: a small set of reusable bundles of value-related parameters (outcome preferences, policy priors, and policy precision) assigned to hidden states in a generative model. As posterior beliefs over states evolve trial by trial, effective control parameters arise via belief-weighted mixing, enabling state-conditional strategy recruitment without requiring independent parameters for each context. We evaluate this framework in probabilistic reversal learning, comparing static-precision, entropy-coupled dynamic-precision, and profile-based models using cross-validated log-likelihood and information criteria. Model comparison favors the profile-based model over simpler alternatives (about 100-point AIC differences), and parameter-recovery analyses support structural identifiability even when context must be inferred from noisy observations. Model-based inference further suggests that adaptive control in this task is driven primarily by modulation of policy priors rather than policy precision, with gradual belief-dependent profile recruitment consistent with state-conditional (not purely uncertainty-driven) control. Overall, reusable value profiles provide a tractable computational account of belief-conditioned value control in volatile environments and yield testable signatures of belief-dependent control and behavioral flexibility.
- Abstract(参考訳): 揮発性環境における適応的行動では、エージェントは潜伏した状況にまたがる価値制御体制を切り替える必要があるが、それぞれの状況に対して異なる嗜好、政策バイアス、行動信頼パラメータを維持することは困難である。
生成モデルにおいて、隠れ状態に割り当てられた価値関連パラメータ(アウトカム優先、ポリシー事前、ポリシー精度)の小さな再利用可能なバンドル。
国家に対する後続の信念が試行錯誤によって試行を進化させるにつれて、効果的な制御パラメータは信念の重み付けによって生じ、それぞれの文脈に独立したパラメータを必要としない状態条件の戦略採用を可能にする。
我々は,この枠組みを確率論的逆転学習において評価し,静的精度,エントロピー結合動的精度,およびクロスバリデーションログと情報基準を用いたプロファイルベースモデルと比較した。
モデル比較は、より単純な選択肢(約100ポイントのAIC差)よりもプロファイルベースのモデルを好む。
モデルに基づく推論は、このタスクの適応的制御は、主に政策の正確さよりも政策優先の調整によって、段階的な信念に依存したプロファイル採用が、国家条件(純粋に不確実性駆動ではない)の制御と整合していることを示唆している。
全体として、再利用可能な値プロファイルは、揮発性環境における信念条件付き値制御の計算可能な説明を提供し、信念に依存した制御と行動柔軟性の検証可能なシグネチャを与える。
関連論文リスト
- Automatically Adaptive Conformal Risk Control [49.95190019041905]
本稿では,テストサンプルの難易度に適応して,統計的リスクの近似的条件制御を実現する手法を提案する。
我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。
論文 参考訳(メタデータ) (2024-06-25T08:29:32Z) - Learning the Uncertainty Sets for Control Dynamics via Set Membership: A Non-Asymptotic Analysis [18.110158316883403]
本稿では,未知の線形システムに対するセットメンバシップ推定(SME)に焦点を当てる。
本稿では,中小企業の収束率境界について述べるとともに,緩和された仮定の下での中小企業の変動について論じる。
また,中小企業の実用性を示す数値的な結果も提供する。
論文 参考訳(メタデータ) (2023-09-26T03:58:06Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Probabilities Are Not Enough: Formal Controller Synthesis for Stochastic
Dynamical Models with Epistemic Uncertainty [68.00748155945047]
複雑な力学系のモデルにおける不確実性を捉えることは、安全なコントローラの設計に不可欠である。
いくつかのアプローチでは、安全と到達可能性に関する時間的仕様を満たすポリシーを形式的な抽象化を用いて合成する。
我々の貢献は、ノイズ、不確実なパラメータ、外乱を含む連続状態モデルに対する新しい抽象的制御法である。
論文 参考訳(メタデータ) (2022-10-12T07:57:03Z) - Employing an Adjusted Stability Measure for Multi-Criteria Model Fitting
on Data Sets with Similar Features [0.1127980896956825]
提案手法は,2つの確立したアプローチと比較して,同じあるいはより良い予測性能が得られることを示す。
このアプローチでは、関係のない機能や冗長な機能を避けながら、関連する機能を選択することに成功しています。
多くの類似した特徴を持つデータセットの場合、特徴選択安定性は調整された安定性尺度で評価されなければならない。
論文 参考訳(メタデータ) (2021-06-15T12:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。