論文の概要: Learning Action-based Representations Using Invariance
- arxiv url: http://arxiv.org/abs/2403.16369v3
- Date: Mon, 24 Jun 2024 13:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:22:15.373928
- Title: Learning Action-based Representations Using Invariance
- Title(参考訳): 不変性を用いた行動に基づく表現の学習
- Authors: Max Rudolph, Caleb Chuck, Kevin Black, Misha Lvovsky, Scott Niekum, Amy Zhang,
- Abstract要約: 我々は,制御に関係のある遠隔状態の特徴を割引する多段階制御可能性指標を学習するアクションビシミュレーション符号化を導入する。
我々は,報酬のない一様ランダムなデータに基づく行動ビシミュレーション事前学習が,複数の環境におけるサンプル効率を向上させることを実証した。
- 参考スコア(独自算出の注目度): 18.1941237781348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust reinforcement learning agents using high-dimensional observations must be able to identify relevant state features amidst many exogeneous distractors. A representation that captures controllability identifies these state elements by determining what affects agent control. While methods such as inverse dynamics and mutual information capture controllability for a limited number of timesteps, capturing long-horizon elements remains a challenging problem. Myopic controllability can capture the moment right before an agent crashes into a wall, but not the control-relevance of the wall while the agent is still some distance away. To address this we introduce action-bisimulation encoding, a method inspired by the bisimulation invariance pseudometric, that extends single-step controllability with a recursive invariance constraint. By doing this, action-bisimulation learns a multi-step controllability metric that smoothly discounts distant state features that are relevant for control. We demonstrate that action-bisimulation pretraining on reward-free, uniformly random data improves sample efficiency in several environments, including a photorealistic 3D simulation domain, Habitat. Additionally, we provide theoretical analysis and qualitative results demonstrating the information captured by action-bisimulation.
- Abstract(参考訳): 高次元観測を用いた頑健な強化学習エージェントは、多くの異種性障害の中で、関連する状態の特徴を識別できなければならない。
制御可能性をキャプチャする表現は、エージェント制御に影響を与えるものを決定することによって、これらの状態要素を識別する。
逆ダイナミクスや相互情報キャプチャといった手法は、限られた時間ステップで制御可能であるが、長い水平要素をキャプチャすることは難しい問題である。
ミオピックコントロールは、エージェントが壁に入る直前の瞬間をキャプチャできるが、エージェントが遠くにいる間は、壁の制御関連性はない。
そこで本研究では,バイシミュレーション不変な擬似メトリックにインスパイアされた動作ビシミュレーション符号化を導入し,再帰的不変性制約を伴って単一ステップ制御性を拡張する。
これを行うことで、アクションビシミュレーションは、制御に関連する離れた状態の特徴を円滑に割引する、多段階の制御可能性指標を学ぶ。
本研究では、報酬のない一様ランダムなデータに基づく行動ビシミュレーション事前学習により、光現実性3DシミュレーションドメインHabitatを含む複数の環境におけるサンプル効率が向上することを示す。
さらに,動作ビシミュレーションによって得られた情報について,理論的解析と定性的な結果を提供する。
関連論文リスト
- Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory [87.62730694973696]
STEELは、単一軌道から外因性ブロックマルコフ決定過程の制御可能なダイナミクスを学習するための、最初の証明可能なサンプル効率アルゴリズムである。
我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。
論文 参考訳(メタデータ) (2024-10-03T21:57:21Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Efficient Embedding of Semantic Similarity in Control Policies via
Entangled Bisimulation [3.5092955099876266]
視覚的障害の存在下での視覚入力からの一般化可能なポリシの学習は、強化学習において難しい問題である。
そこで本研究では,状態間の距離関数を指定可能なビシミュレーション・メトリックであるエンタングルド・ビシミュレーションを提案する。
本稿では,Distracting Control Suite (DCS) における従来の手法に比べて,絡み合ったバイシミュレーションが有意に改善可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T18:06:06Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - Disentangling Action Sequences: Discovering Correlated Samples [6.179793031975444]
我々は、データ自体が要因ではなく非絡み合いにおいて重要な役割を担い、非絡み合い表現は潜在変数とアクションシーケンスとを一致させることを示した。
本稿では,アクションシーケンスをステップバイステップで切り離すための新しいフレームワークFVAEを提案する。
dSprites と 3D Chairs の実験結果から, FVAE は絡み合いの安定性を向上させることが示された。
論文 参考訳(メタデータ) (2020-10-17T07:37:50Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Unsupervised Discovery, Control, and Disentanglement of Semantic
Attributes with Applications to Anomaly Detection [15.817227809141116]
画像の意味的属性を制御する潜在因子を検出する教師なし生成表現に着目する。
a)マルチスケール生成モデルと相互情報(MI)を組み合わせたネットワークアーキテクチャを提案する。
b) について、解析的結果(Lemma 1) を導出し、2つの関連する異なる概念に明瞭さをもたらす。
論文 参考訳(メタデータ) (2020-02-25T20:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。