論文の概要: Efficient Empowerment Estimation for Unsupervised Stabilization
- arxiv url: http://arxiv.org/abs/2007.07356v2
- Date: Sun, 9 May 2021 06:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:39:35.473212
- Title: Efficient Empowerment Estimation for Unsupervised Stabilization
- Title(参考訳): 教師なし安定化のための効率的なエンパワーメント推定
- Authors: Ruihan Zhao, Kevin Lu, Pieter Abbeel, Stas Tiomkin
- Abstract要約: エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
- 参考スコア(独自算出の注目度): 75.32013242448151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrinsically motivated artificial agents learn advantageous behavior without
externally-provided rewards. Previously, it was shown that maximizing mutual
information between agent actuators and future states, known as the empowerment
principle, enables unsupervised stabilization of dynamical systems at upright
positions, which is a prototypical intrinsically motivated behavior for upright
standing and walking. This follows from the coincidence between the objective
of stabilization and the objective of empowerment. Unfortunately, sample-based
estimation of this kind of mutual information is challenging. Recently, various
variational lower bounds (VLBs) on empowerment have been proposed as solutions;
however, they are often biased, unstable in training, and have high sample
complexity. In this work, we propose an alternative solution based on a
trainable representation of a dynamical system as a Gaussian channel, which
allows us to efficiently calculate an unbiased estimator of empowerment by
convex optimization. We demonstrate our solution for sample-based unsupervised
stabilization on different dynamical control systems and show the advantages of
our method by comparing it to the existing VLB approaches. Specifically, we
show that our method has a lower sample complexity, is more stable in training,
possesses the essential properties of the empowerment function, and allows
estimation of empowerment from images. Consequently, our method opens a path to
wider and easier adoption of empowerment for various applications.
- Abstract(参考訳): 本質的に動機づけられた人工エージェントは、外部の報酬なしで有利な行動を学ぶ。
従来, エージェントアクチュエータと将来の状態との相互情報を最大化することで, 立位・歩行の原型的動機づけ行動である直立位置における動的システムの教師なし安定化が可能であった。
これは安定化の目的と権限付与の目的との一致によるものである。
残念ながら、このような相互情報のサンプルベースの推定は困難である。
近年、エンパワーメントに関する様々な変分下界(VLB)が解として提案されているが、それらはしばしば偏りがあり、訓練中に不安定であり、高いサンプル複雑性を持つ。
本研究では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案し,凸最適化により非バイアスのエンパワーメント推定器を効率的に計算する。
異なる動的制御系上でのサンプルベースの教師なし安定化のソリューションを実証し,既存のVLB手法と比較することにより,本手法の利点を示す。
具体的には,本手法はサンプルの複雑さが低く,訓練時の安定性が向上し,エンパワーメント機能の本質的特性を有し,画像からエンパワーメントを推定できることを示す。
そこで本手法は,様々なアプリケーションに対して,より広範かつ簡便なエンパワーメント導入への道を開く。
関連論文リスト
- Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Dynamic Memory for Interpretable Sequential Optimisation [0.0]
大規模展開に適した非定常性を扱うためのソリューションを提案する。
動的メモリの新たな形態を取り入れた適応型ベイズ学習エージェントを開発した。
自動アズ・ア・サービス(Automatic-as-a-service)の大規模展開のアーキテクチャについて説明する。
論文 参考訳(メタデータ) (2022-06-28T12:29:13Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。