論文の概要: Generative Intrinsic Optimization: Intrinsic Control with Model Learning
- arxiv url: http://arxiv.org/abs/2310.08100v2
- Date: Tue, 14 Nov 2023 08:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 17:58:38.776960
- Title: Generative Intrinsic Optimization: Intrinsic Control with Model Learning
- Title(参考訳): 生成的内在的最適化:モデル学習による内在的制御
- Authors: Jianfei Ma
- Abstract要約: 将来のシーケンスは、環境へのアクションの実行後の結果を表す。
明示的な成果は、クレジットの割り当てや模倣学習などの異なる目的のために、州、返却、軌跡によって異なりうる。
本稿では、相互情報をシームレスに組み込んだ政策スキームを提案し、最適な政策への収束を確保する。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Future sequence represents the outcome after executing the action into the
environment (i.e. the trajectory onwards). When driven by the
information-theoretic concept of mutual information, it seeks maximally
informative consequences. Explicit outcomes may vary across state, return, or
trajectory serving different purposes such as credit assignment or imitation
learning. However, the inherent nature of incorporating intrinsic motivation
with reward maximization is often neglected. In this work, we propose a policy
iteration scheme that seamlessly incorporates the mutual information, ensuring
convergence to the optimal policy. Concurrently, a variational approach is
introduced, which jointly learns the necessary quantity for estimating the
mutual information and the dynamics model, providing a general framework for
incorporating different forms of outcomes of interest. While we mainly focus on
theoretical analysis, our approach opens the possibilities of leveraging
intrinsic control with model learning to enhance sample efficiency and
incorporate uncertainty of the environment into decision-making.
- Abstract(参考訳): 将来のシーケンスは、動作を環境(すなわち軌道上)に実行した後の結果を表す。
情報理論的な相互情報の概念に駆り立てられると、最大の情報的結果を求める。
明示的な成果は、クレジットの割り当てや模倣学習のような異なる目的のために、州、返却、軌跡によって異なりうる。
しかし、内在的な動機づけと報酬の最大化を組み込む本質的な性質はしばしば無視される。
そこで本研究では,相互情報をシームレスに取り込み,最適方針への収束を保証するポリシー反復方式を提案する。
同時に、相互情報とダイナミクスモデルの推定に必要な量を共同で学習し、興味のある結果の異なる形態を組み込むための一般的な枠組みを提供する、変分的アプローチを導入する。
我々は主に理論分析に焦点を絞るが,本手法は本質的制御をモデル学習で活用し,サンプル効率を高め,環境の不確実性を意思決定に取り入れる可能性を開く。
関連論文リスト
- Consistent Joint Decision-Making with Heterogeneous Learning Models [26.369155875802807]
本稿では,多様なモデルによる決定間の整合性を促進する新しい意思決定フレームワークを提案する。
我々は、様々なモデルからの予測を、決定の事前確率、信頼性(不確実性)、モデルが期待する精度に関する情報を組み込むことで、グローバルに正規化され、同等の値にマッピングする。
論文 参考訳(メタデータ) (2024-02-06T05:50:04Z) - A Closer Look at the Intervention Procedure of Concept Bottleneck Models [18.222350428973343]
概念ボトルネックモデル(コンセプションボトルネックモデル、CBM)は、その高レベルな概念に基づいて与えられた入力のターゲット応答を予測する、解釈可能なニューラルネットワークモデルのクラスである。
CBMは、ドメインの専門家が予測された概念に介入し、テスト時に間違いを修正できるので、最後にもっと正確なタスク予測ができる。
本研究では,介入効果を向上させるために介入概念を選択する様々な方法を開発し,異なる状況下でどのように進化するかを詳細に分析する。
論文 参考訳(メタデータ) (2023-02-28T02:37:24Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Performative Reinforcement Learning [8.07595093287034]
実演安定政策の概念を導入する。
この目的を何度も最適化することは、性能的に安定した政策に収束することを示します。
論文 参考訳(メタデータ) (2022-06-30T18:26:03Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Understanding the origin of information-seeking exploration in
probabilistic objectives for control [62.997667081978825]
探索と探索のトレードオフは適応行動の記述の中心である。
このトレードオフを解決する1つのアプローチは、エージェントが固有の「探索駆動」を持っていることを装備または提案することであった。
汎用的最大化と情報参照行動の組み合わせは, 目的の全く異なる分類の最小化から生じることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:42:39Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Contextual Policy Transfer in Reinforcement Learning Domains via Deep
Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。
我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文 参考訳(メタデータ) (2020-02-29T07:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。