論文の概要: Learning Value Functions from Undirected State-only Experience
- arxiv url: http://arxiv.org/abs/2204.12458v1
- Date: Tue, 26 Apr 2022 17:24:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:05:33.805624
- Title: Learning Value Functions from Undirected State-only Experience
- Title(参考訳): 非指向状態のみの経験から学ぶ価値関数
- Authors: Matthew Chang, Arjun Gupta, Saurabh Gupta
- Abstract要約: 離散決定過程 (MDP) におけるマルコフ・クラーニング(英語版)は、作用空間の任意の洗練の下で同じ値関数を学習することを示す。
この理論的結果は、状態のみの経験から効果的な値関数を学習できるオフラインRL法であるLatent Action Q-learning(LAQ)の設計を動機付けている。
LAQは、基底真理行動を用いて学習した値関数と高い相関を持つ値関数を復元できることを示す。
- 参考スコア(独自算出の注目度): 17.76847333440422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the problem of learning value functions from undirected
state-only experience (state transitions without action labels i.e. (s,s',r)
tuples). We first theoretically characterize the applicability of Q-learning in
this setting. We show that tabular Q-learning in discrete Markov decision
processes (MDPs) learns the same value function under any arbitrary refinement
of the action space. This theoretical result motivates the design of Latent
Action Q-learning or LAQ, an offline RL method that can learn effective value
functions from state-only experience. Latent Action Q-learning (LAQ) learns
value functions using Q-learning on discrete latent actions obtained through a
latent-variable future prediction model. We show that LAQ can recover value
functions that have high correlation with value functions learned using ground
truth actions. Value functions learned using LAQ lead to sample efficient
acquisition of goal-directed behavior, can be used with domain-specific
low-level controllers, and facilitate transfer across embodiments. Our
experiments in 5 environments ranging from 2D grid world to 3D visual
navigation in realistic environments demonstrate the benefits of LAQ over
simpler alternatives, imitation learning oracles, and competing methods.
- Abstract(参考訳): 本稿では,無向状態のみの経験(動作ラベルのない状態遷移,すなわち(s,s,r)タプル)から価値関数を学習する問題に取り組む。
本稿ではまず,Q-ラーニングの適用性を理論的に評価する。
離散マルコフ決定過程(MDP)における表型Q-ラーニングは、任意のアクション空間の洗練の下で同じ値関数を学習することを示す。
この理論的結果は、状態のみの経験から効果的な値関数を学習できるオフラインRL法であるLatent Action Q-learning(LAQ)の設計を動機付けている。
潜時行動Q学習(LAQ)は、潜時変動予測モデルを用いて得られた離散潜時行動に基づいてQ学習を用いて値関数を学習する。
LAQは、基底真理行動を用いて学習した値関数と高い相関を持つ値関数を復元できることを示す。
laqを使って学んだ値関数は、目標指向の振る舞いのサンプルを効率的に取得し、ドメイン固有の低レベルコントローラで使用し、実施形態間の転送を容易にする。
2dグリッドの世界から3dビジュアルナビゲーションまで,現実環境における5つの環境における実験では,laqがよりシンプルな代替手段,模倣学習オラクル,競合する手法よりも優れていることが示されています。
関連論文リスト
- Towards Plastic and Stable Exemplar-Free Incremental Learning: A Dual-Learner Framework with Cumulative Parameter Averaging [12.168402195820649]
In this proposed a Dual-Learner framework with Cumulative。
平均化(DLCPA)
DLCPA は Task-IL と Class-IL の両方の設定において,最先端の既定ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-28T08:48:44Z) - Learning Reward for Physical Skills using Large Language Model [5.795405764196473]
大規模言語モデルは、報酬関数の学習に役立つ貴重なタスク関連の知識を含んでいる。
本研究では,環境フィードバックを用いてLCMからタスク知識を抽出し,身体的スキルに対する効率的な報酬関数を作成することを目的とする。
論文 参考訳(メタデータ) (2023-10-21T19:10:06Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - VA-learning as a more efficient alternative to Q-learning [49.526579981437315]
本稿では,ブートストラップを用いたベネフィット関数と値関数を直接学習するVA学習について紹介する。
VAラーニングは政治から学び、Qラーニングと同様の理論的な保証を享受する。
優位関数と値関数の直接学習により、VA学習はQ学習よりもサンプル効率を向上させる。
論文 参考訳(メタデータ) (2023-05-29T15:44:47Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - Pre-trained Word Embeddings for Goal-conditional Transfer Learning in
Reinforcement Learning [0.0]
本稿では,事前訓練されたタスク非依存言語モデルによって,目標条件付きRLエージェントをより効率的にする方法について述べる。
私たちは、異なる関連するタスク間の伝達学習を容易にすることで、これを実現します。
論文 参考訳(メタデータ) (2020-07-10T06:42:00Z) - Transfer Reinforcement Learning under Unobserved Contextual Information [16.895704973433382]
本研究では,環境条件によって状態遷移と報酬が影響を受ける伝達強化学習問題について検討する。
本研究では,デモンストレータのデータを用いて,遷移関数と報酬関数の因果境界を求める手法を開発した。
バイアスのない真値関数に収束する新しいQ学習アルゴリズムとUCB-Q学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-09T22:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。