論文の概要: Inverse Rational Control with Partially Observable Continuous Nonlinear
Dynamics
- arxiv url: http://arxiv.org/abs/2009.12576v2
- Date: Fri, 30 Oct 2020 07:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 08:17:43.682471
- Title: Inverse Rational Control with Partially Observable Continuous Nonlinear
Dynamics
- Title(参考訳): 部分観測可能な連続非線形ダイナミクスを用いた逆有理制御
- Authors: Minhae Kwon, Saurabh Daptardar, Paul Schrater, Xaq Pitkow
- Abstract要約: 神経科学における根本的な疑問は、脳がどのように世界の内部モデルを作成し、曖昧な感覚情報を用いて行動のガイドを行うかである。
この問題は制御理論によって解けるので、与えられた系力学と目的関数の最適作用を見つけることができる。
我々は、動物が独自の欠陥のある内部モデルを持っていると仮定し、その欠陥モデルに従って最も期待された主観的な報酬で行動を選択する。
ここでは、この問題を部分的に観測可能なマルコフ決定過程において離散制御するために解決した逆回帰制御に関する過去の研究を一般化する。
- 参考スコア(独自算出の注目度): 6.65264113799989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental question in neuroscience is how the brain creates an internal
model of the world to guide actions using sequences of ambiguous sensory
information. This is naturally formulated as a reinforcement learning problem
under partial observations, where an agent must estimate relevant latent
variables in the world from its evidence, anticipate possible future states,
and choose actions that optimize total expected reward. This problem can be
solved by control theory, which allows us to find the optimal actions for a
given system dynamics and objective function. However, animals often appear to
behave suboptimally. Why? We hypothesize that animals have their own flawed
internal model of the world, and choose actions with the highest expected
subjective reward according to that flawed model. We describe this behavior as
rational but not optimal. The problem of Inverse Rational Control (IRC) aims to
identify which internal model would best explain an agent's actions. Our
contribution here generalizes past work on Inverse Rational Control which
solved this problem for discrete control in partially observable Markov
decision processes. Here we accommodate continuous nonlinear dynamics and
continuous actions, and impute sensory observations corrupted by unknown noise
that is private to the animal. We first build an optimal Bayesian agent that
learns an optimal policy generalized over the entire model space of dynamics
and subjective rewards using deep reinforcement learning. Crucially, this
allows us to compute a likelihood over models for experimentally observable
action trajectories acquired from a suboptimal agent. We then find the model
parameters that maximize the likelihood using gradient ascent.
- Abstract(参考訳): 神経科学における根本的な疑問は、脳がどのように世界の内部モデルを作成し、曖昧な感覚情報を用いて行動のガイドを行うかである。
これは、部分的に観察された強化学習問題として、エージェントがその証拠から世界の関連する潜在変数を推定し、将来の状態を予測し、全体的な期待報酬を最適化するアクションを選択する必要がある。
この問題は制御理論によって解くことができ、与えられた系のダイナミクスと目的関数の最適作用を見つけることができる。
しかし、動物はしばしば非最適に振る舞う。
なぜだ?
我々は、動物は世界の欠陥のある内部モデルを持っていると仮定し、欠陥のあるモデルに従って最も期待される主観的な報酬を持つ行動を選択する。
この行動は合理的だが最適ではない。
Inverse Rational Control (IRC) の問題は、エージェントのアクションを最もよく説明できる内部モデルを特定することである。
ここでは,部分可観測マルコフ決定過程における離散制御の問題を解いた逆有理制御に関する過去の研究を一般化する。
ここでは,連続的な非線形ダイナミクスと連続的な行動に適応し,動物にプライベートな未知の雑音によって腐敗した感覚観察を示唆する。
まず,モデル空間全体に一般化した最適方針を学習する最適なベイズエージェントを,深層強化学習を用いて構築する。
重要なことに、これはサブオプティマイズから取得した実験的に観測可能なアクショントラジェクタのモデルよりも可能性を計算することができる。
次に、勾配上昇を用いた確率を最大化するモデルパラメータを求める。
関連論文リスト
- Ego-Foresight: Agent Visuomotor Prediction as Regularization for RL [34.6883445484835]
エゴフォレスト(Ego-Foresight)は、エージェントと環境を移動と予測に基づいて切り離す自己管理手法である。
本稿では,エージェントのビジュモータ予測がRLアルゴリズムの正規化に役立ち,動作が予測可能な範囲内に留まるよう促すことを示す。
Ego-ForesightとモデルフリーなRLアルゴリズムを統合し、ロボット操作のシミュレーションを解くことで、効率が23%向上し、性能が8%向上した。
論文 参考訳(メタデータ) (2024-05-27T13:32:43Z) - Towards Generalizable and Interpretable Motion Prediction: A Deep
Variational Bayes Approach [54.429396802848224]
本稿では,分布外ケースに対する頑健な一般化性を有する動き予測のための解釈可能な生成モデルを提案する。
このモデルでは, 長期目的地の空間分布を推定することにより, 目標駆動動作予測を実現する。
動き予測データセットの実験は、適合したモデルが解釈可能で一般化可能であることを検証した。
論文 参考訳(メタデータ) (2024-03-10T04:16:04Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文 参考訳(メタデータ) (2024-02-13T15:55:41Z) - A General Neural Causal Model for Interactive Recommendation [24.98550634633534]
観測データの生存バイアスは、リコメンダシステムの最適化を局所最適に導く。
本稿では,反ファクト推論を実現するためのニューラル因果モデルを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:21:04Z) - Optimistic Active Exploration of Dynamical Systems [52.91573056896633]
我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:26:59Z) - Deep Grey-Box Modeling With Adaptive Data-Driven Models Toward
Trustworthy Estimation of Theory-Driven Models [88.63781315038824]
本稿では,ニューラルネットワークのアーキテクチャとトレーニング目標にわずかな変化を伴って,レギュレータの動作を経験的に分析することのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T10:42:26Z) - Inference of Affordances and Active Motor Control in Simulated Agents [0.5161531917413706]
本稿では,出力確率,時間的予測,モジュール型人工ニューラルネットワークアーキテクチャを提案する。
我々のアーキテクチャは、割当マップと解釈できる潜在状態が発達していることを示す。
アクティブな推論と組み合わせることで、フレキシブルでゴール指向の動作が実行可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T14:13:04Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Goal-Directed Planning by Reinforcement Learning and Active Inference [16.694117274961016]
ベイジアン推論を用いた新たな意思決定フレームワークを提案する。
ゴール指向の振る舞いは、計画によって$z$の後方分布から決定される。
本稿では,カメラ観測と連続運動動作を用いたセンサモレータナビゲーションタスクの実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T06:41:01Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。