論文の概要: Generative Intrinsic Optimization: Intrinsic Control with Model Learning
- arxiv url: http://arxiv.org/abs/2310.08100v2
- Date: Tue, 14 Nov 2023 08:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 17:58:38.776960
- Title: Generative Intrinsic Optimization: Intrinsic Control with Model Learning
- Title(参考訳): 生成的内在的最適化:モデル学習による内在的制御
- Authors: Jianfei Ma
- Abstract要約: 将来のシーケンスは、環境へのアクションの実行後の結果を表す。
明示的な成果は、クレジットの割り当てや模倣学習などの異なる目的のために、州、返却、軌跡によって異なりうる。
本稿では、相互情報をシームレスに組み込んだ政策スキームを提案し、最適な政策への収束を確保する。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Future sequence represents the outcome after executing the action into the
environment (i.e. the trajectory onwards). When driven by the
information-theoretic concept of mutual information, it seeks maximally
informative consequences. Explicit outcomes may vary across state, return, or
trajectory serving different purposes such as credit assignment or imitation
learning. However, the inherent nature of incorporating intrinsic motivation
with reward maximization is often neglected. In this work, we propose a policy
iteration scheme that seamlessly incorporates the mutual information, ensuring
convergence to the optimal policy. Concurrently, a variational approach is
introduced, which jointly learns the necessary quantity for estimating the
mutual information and the dynamics model, providing a general framework for
incorporating different forms of outcomes of interest. While we mainly focus on
theoretical analysis, our approach opens the possibilities of leveraging
intrinsic control with model learning to enhance sample efficiency and
incorporate uncertainty of the environment into decision-making.
- Abstract(参考訳): 将来のシーケンスは、動作を環境(すなわち軌道上)に実行した後の結果を表す。
情報理論的な相互情報の概念に駆り立てられると、最大の情報的結果を求める。
明示的な成果は、クレジットの割り当てや模倣学習のような異なる目的のために、州、返却、軌跡によって異なりうる。
しかし、内在的な動機づけと報酬の最大化を組み込む本質的な性質はしばしば無視される。
そこで本研究では,相互情報をシームレスに取り込み,最適方針への収束を保証するポリシー反復方式を提案する。
同時に、相互情報とダイナミクスモデルの推定に必要な量を共同で学習し、興味のある結果の異なる形態を組み込むための一般的な枠組みを提供する、変分的アプローチを導入する。
我々は主に理論分析に焦点を絞るが,本手法は本質的制御をモデル学習で活用し,サンプル効率を高め,環境の不確実性を意思決定に取り入れる可能性を開く。
関連論文リスト
- KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models [14.057527352653787]
本稿では,適応的な知識選択を実現することを目的とした,知識認識型参照最適化戦略であるKnowPOを提案する。
KnowPOは,従来の知識衝突処理手法を37%以上上回る性能を示した。
論文 参考訳(メタデータ) (2024-08-06T16:55:54Z) - A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - On Predictive planning and counterfactual learning in active inference [0.20482269513546453]
本稿では,「計画」と「経験から学ぶ」に基づくアクティブ推論における2つの意思決定手法について検討する。
これらの戦略間のデータ-複雑さのトレードオフをナビゲートする混合モデルを導入する。
提案手法を,エージェントの適応性を必要とするグリッドワールドシナリオで評価する。
論文 参考訳(メタデータ) (2024-03-19T04:02:31Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Performative Reinforcement Learning [8.07595093287034]
実演安定政策の概念を導入する。
この目的を何度も最適化することは、性能的に安定した政策に収束することを示します。
論文 参考訳(メタデータ) (2022-06-30T18:26:03Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。