論文の概要: Modulation of viability signals for self-regulatory control
- arxiv url: http://arxiv.org/abs/2007.09297v2
- Date: Tue, 13 Oct 2020 11:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 05:14:38.530504
- Title: Modulation of viability signals for self-regulatory control
- Title(参考訳): 自律制御のための生存可能信号の変調
- Authors: Alvaro Ovalle and Simon M. Lucas
- Abstract要約: 適応行動のドライバとしてのインストゥルメンタルバリューの役割を再考する。
強化学習タスクでは、好みの分布が報酬の概念に取って代わる。
- 参考スコア(独自算出の注目度): 1.370633147306388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit the role of instrumental value as a driver of adaptive behavior.
In active inference, instrumental or extrinsic value is quantified by the
information-theoretic surprisal of a set of observations measuring the extent
to which those observations conform to prior beliefs or preferences. That is,
an agent is expected to seek the type of evidence that is consistent with its
own model of the world. For reinforcement learning tasks, the distribution of
preferences replaces the notion of reward. We explore a scenario in which the
agent learns this distribution in a self-supervised manner. In particular, we
highlight the distinction between observations induced by the environment and
those pertaining more directly to the continuity of an agent in time. We
evaluate our methodology in a dynamic environment with discrete time and
actions. First with a surprisal minimizing model-free agent (in the RL sense)
and then expanding to the model-based case to minimize the expected free
energy.
- Abstract(参考訳): 適応行動のドライバとしてのインストゥルメンタルバリューの役割を再考する。
積極的推論では、これらの観測が以前の信念や嗜好に適合する範囲を測定する一連の観測の情報理論的前提によって、器物的または外在的な値が定量化される。
すなわち、エージェントは、自身の世界のモデルと整合した証拠のタイプを求めることが期待されている。
強化学習タスクでは、好みの分布が報酬の概念に取って代わる。
エージェントがこの分布を自己監督的な方法で学習するシナリオを考察する。
特に,環境によって引き起こされる観察と,より直接的に時間内のエージェントの連続性に関連する観察との区別を強調する。
我々は時間と行動の異なる動的環境で方法論を評価する。
まず、(RLの意味で)モデルフリーエージェントを最小化し、次に予測される自由エネルギーを最小化するためにモデルベースケースに拡張する。
関連論文リスト
- Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Hierarchical Imitation Learning for Stochastic Environments [31.64016324441371]
分布的リアリズムを改善する既存の方法は通常階層的なポリシーに依存している。
環境条件下での対人訓練に伴う変化を解消するロバスト型条件付け(RTC)を提案する。
大規模なOpen Motionデータセットを含む2つの領域の実験では、最先端のベースラインと比較して、タスクパフォーマンスを維持したり改善したりしながら、分散リアリズムが改善された。
論文 参考訳(メタデータ) (2023-09-25T10:10:34Z) - A Neural Active Inference Model of Perceptual-Motor Learning [62.39667564455059]
アクティブ推論フレームワーク(英: active inference framework、AIF)は、現代の神経科学を基盤とした、有望な新しい計算フレームワークである。
本研究では,ヒトの視覚行動指導において,AIFが期待する役割を捉える能力をテストする。
本稿では,多次元世界状態から自由エネルギーの一次元分布にマッピングする先行関数の新たな定式化について述べる。
論文 参考訳(メタデータ) (2022-11-16T20:00:38Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Continuous Homeostatic Reinforcement Learning for Self-Regulated
Autonomous Agents [0.0]
本研究では,恒常的強化学習理論を空間的・時間的連続環境に拡張することを提案する。
生物に豊富に存在する自己制御機構にインスパイアされ、エージェントの内部状態のダイナミクスのモデルも導入する。
論文 参考訳(メタデータ) (2021-09-14T11:03:58Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。