論文の概要: Control-Aware Representations for Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.13408v1
- Date: Wed, 24 Jun 2020 01:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 08:56:33.811242
- Title: Control-Aware Representations for Model-based Reinforcement Learning
- Title(参考訳): モデルベース強化学習のための制御認識表現
- Authors: Brandon Cui and Yinlam Chow and Mohammad Ghavamzadeh
- Abstract要約: 現代の強化学習(RL)における大きな課題は、高次元の感覚観測から力学系の効率的な制御である。
学習制御可能な埋め込み(LCE)は、観測結果を低次元の潜在空間に埋め込むことによって、この問題に対処する有望なアプローチである。
この領域における2つの重要な疑問は、手前の制御問題に対処可能な表現の学習方法と、表現学習と制御のためのエンドツーエンドフレームワークの達成方法である。
- 参考スコア(独自算出の注目度): 36.221391601609255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in modern reinforcement learning (RL) is efficient control
of dynamical systems from high-dimensional sensory observations. Learning
controllable embedding (LCE) is a promising approach that addresses this
challenge by embedding the observations into a lower-dimensional latent space,
estimating the latent dynamics, and utilizing it to perform control in the
latent space. Two important questions in this area are how to learn a
representation that is amenable to the control problem at hand, and how to
achieve an end-to-end framework for representation learning and control. In
this paper, we take a few steps towards addressing these questions. We first
formulate a LCE model to learn representations that are suitable to be used by
a policy iteration style algorithm in the latent space. We call this model
control-aware representation learning (CARL). We derive a loss function for
CARL that has close connection to the prediction, consistency, and curvature
(PCC) principle for representation learning. We derive three implementations of
CARL. In the offline implementation, we replace the locally-linear control
algorithm (e.g.,~iLQR) used by the existing LCE methods with a RL algorithm,
namely model-based soft actor-critic, and show that it results in significant
improvement. In online CARL, we interleave representation learning and control,
and demonstrate further gain in performance. Finally, we propose value-guided
CARL, a variation in which we optimize a weighted version of the CARL loss
function, where the weights depend on the TD-error of the current policy. We
evaluate the proposed algorithms by extensive experiments on benchmark tasks
and compare them with several LCE baselines.
- Abstract(参考訳): 現代の強化学習(RL)における大きな課題は、高次元の感覚観測から力学系の効率的な制御である。
学習制御可能な埋め込み(LCE)は、観測結果を低次元の潜伏空間に埋め込み、潜伏力学を推定し、潜伏空間における制御を実行することによって、この問題に対処する有望なアプローチである。
この領域における2つの重要な疑問は、手前の制御問題に対処可能な表現の学習方法と、表現学習と制御のためのエンドツーエンドフレームワークの達成方法である。
本稿では,これらの問題に対処するためのいくつかのステップについて述べる。
まず LCE モデルを定式化し,政策反復型アルゴリズムが潜時空間で使用するのに適した表現を学習する。
このモデルを制御認識表現学習(CARL)と呼ぶ。
表現学習における予測,一貫性,曲率(PCC)の原理に密接に関連したCARLの損失関数を導出する。
CARLの3つの実装を導出する。
オフライン実装では、既存のLCE法で使われている局所線形制御アルゴリズム(例:~iLQR)をRLアルゴリズム(モデルベースソフトアクター批判)に置き換え、それが大幅な改善をもたらすことを示す。
オンラインCARLでは、表現学習と制御をインターリーブし、さらなる性能向上を示す。
最後に,カール損失関数の重み付きバージョンを最適化し,その重み付けが現在の方針のtd誤差に依存する値誘導型カールを提案する。
提案アルゴリズムをベンチマークタスクの広範な実験により評価し,いくつかのLCEベースラインと比較した。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning [24.684363928059113]
自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。
我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。
iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2024-06-04T18:15:44Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - On Task-Relevant Loss Functions in Meta-Reinforcement Learning and
Online LQR [9.355903533901023]
本稿では,タスク指向方式でシステムや環境のモデルを学習する,サンプル効率のメタRLアルゴリズムを提案する。
メタRLの標準的なモデルベースアプローチとは対照的に,本手法では,環境の決定クリティカルな部分を迅速に捉えるために,値情報を利用する。
論文 参考訳(メタデータ) (2023-12-09T04:52:28Z) - Model-based adaptation for sample efficient transfer in reinforcement
learning control of parameter-varying systems [1.8799681615947088]
我々はモデルに基づく制御のアイデアを活用し、強化学習アルゴリズムのサンプル効率問題に対処する。
また,本手法は強化学習のみでの微調整よりもサンプリング効率が高いことを示した。
論文 参考訳(メタデータ) (2023-05-20T10:11:09Z) - Large Language Models can Implement Policy Iteration [18.424558160071808]
In-Context Policy Iterationは、基礎モデルを用いてReinforcement Learning(RL)を実行するアルゴリズムである。
ICPIは、専門家によるデモンストレーションやグラデーションなしでRLタスクを実行することを学ぶ。
ICPIは、RL環境との試行錯誤によってポリシーを導出するプロンプトの内容を反復的に更新する。
論文 参考訳(メタデータ) (2022-10-07T21:18:22Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。