論文の概要: Prior preferences in active inference agents: soft, hard, and goal shaping
- arxiv url: http://arxiv.org/abs/2512.03293v1
- Date: Tue, 02 Dec 2025 23:07:24 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:57:20.617224
- Title: Prior preferences in active inference agents: soft, hard, and goal shaping
- Title(参考訳): アクティブ推論エージェントの優先選好--ソフト、ハード、ゴールシェーピング
- Authors: Filippo Torresan, Ryota Kanai, Manuel Baltieri,
- Abstract要約: アクティブ推論は、学習エージェントにおける搾取的および爆発的駆動のバランスをとる目的として、期待される自由エネルギーを提案する。
我々は、エージェントにハードまたはソフトな目標を与える、選好分布を定義するための4つの方法を検討する。
ゴールシェイピングは、環境の遷移ダイナミクスについて学習を犠牲にして、全体的なパフォーマンス(すなわち、搾取を促進すること)を最大限に発揮できることを示します。
- 参考スコア(独自算出の注目度): 3.2776596620344285
- License:
- Abstract: Active inference proposes expected free energy as an objective for planning and decision-making to adequately balance exploitative and explorative drives in learning agents. The exploitative drive, or what an agent wants to achieve, is formalised as the Kullback-Leibler divergence between a variational probability distribution, updated at each inference step, and a preference probability distribution that indicates what states or observations are more likely for the agent, hence determining the agent's goal in a certain environment. In the literature, the questions of how the preference distribution should be specified and of how a certain specification impacts inference and learning in an active inference agent have been given hardly any attention. In this work, we consider four possible ways of defining the preference distribution, either providing the agents with hard or soft goals and either involving or not goal shaping (i.e., intermediate goals). We compare the performances of four agents, each given one of the possible preference distributions, in a grid world navigation task. Our results show that goal shaping enables the best performance overall (i.e., it promotes exploitation) while sacrificing learning about the environment's transition dynamics (i.e., it hampers exploration).
- Abstract(参考訳): アクティブ推論は、学習エージェントにおける搾取的および爆発的駆動を適切にバランスさせる計画と意思決定の目的として、期待される自由エネルギーを提案する。
搾取駆動、すなわちエージェントが達成したいものは、各推論ステップで更新された変動確率分布と、エージェントにどの状態や観測の可能性がより高いかを示す優先確率分布との間のクルバック・リーブラー分岐として形式化され、エージェントの特定の環境における目標を決定する。
文献では、嗜好分布の特定方法や、特定の仕様がアクティブな推論エージェントにおける推論や学習に与える影響についてはほとんど注目されていない。
本研究では、エージェントにハードゴールまたはソフトゴールを与えるか、あるいはゴールシェイピング(中間ゴール)を含まないかのどちらか、選好分布を定義するための4つの方法を検討する。
グリッドワールドナビゲーションタスクにおいて、4つのエージェントのパフォーマンスを比較する。
以上の結果から, 目標形成は, 環境の遷移力学(すなわち, 探索)の学習を犠牲にしながら, 全体的(すなわち, 搾取を促進する)の最高のパフォーマンスを実現することが示唆された。
関連論文リスト
- Desirable Effort Fairness and Optimality Trade-offs in Strategic Learning [4.702729080310267]
意思決定ルールが、より優れた結果を得るために、戦略的にインプット/機能を変更するエージェントとどのように相互作用するかを検討する。
このトレードオフを捉えた主エージェント相互作用の統一モデルを提案する。
論文 参考訳(メタデータ) (2025-10-21T21:43:20Z) - Goal-Directedness is in the Eye of the Beholder [48.937781898861815]
ゴール指向の行動の探索には,2つのフレーバーがある。
エージェントシステムにおけるゴールの定式化から生じる技術的および概念的問題を特定する。
本稿では,動的マルチエージェントシステムの創発的特性として,ゴール指向性をモデル化するための新たな方向性について概説する。
論文 参考訳(メタデータ) (2025-08-18T11:04:18Z) - Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - Statistical Inference Under Constrained Selection Bias [20.862583584531322]
本稿では,選択バイアスが存在する場合の統計的推測を可能にする枠組みを提案する。
出力は、目標分布に対する推定値に対する高確率境界である。
我々はこれらの境界を推定するための手法の計算的および統計的特性を分析し、これらの手法が様々なシミュレートされた半合成的なタスクに対して情報的境界を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T23:05:26Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Understanding the origin of information-seeking exploration in
probabilistic objectives for control [62.997667081978825]
探索と探索のトレードオフは適応行動の記述の中心である。
このトレードオフを解決する1つのアプローチは、エージェントが固有の「探索駆動」を持っていることを装備または提案することであった。
汎用的最大化と情報参照行動の組み合わせは, 目的の全く異なる分類の最小化から生じることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:42:39Z) - Modulation of viability signals for self-regulatory control [1.370633147306388]
適応行動のドライバとしてのインストゥルメンタルバリューの役割を再考する。
強化学習タスクでは、好みの分布が報酬の概念に取って代わる。
論文 参考訳(メタデータ) (2020-07-18T01:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。