論文の概要: On Task-Relevant Loss Functions in Meta-Reinforcement Learning and
Online LQR
- arxiv url: http://arxiv.org/abs/2312.05465v1
- Date: Sat, 9 Dec 2023 04:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:32:23.195345
- Title: On Task-Relevant Loss Functions in Meta-Reinforcement Learning and
Online LQR
- Title(参考訳): メタ強化学習とオンラインLQRにおけるタスク関連損失関数について
- Authors: Jaeuk Shin, Giho Kim, Howon Lee, Joonho Han, Insoon Yang
- Abstract要約: 本稿では,タスク指向方式でシステムや環境のモデルを学習する,サンプル効率のメタRLアルゴリズムを提案する。
メタRLの標準的なモデルベースアプローチとは対照的に,本手法では,環境の決定クリティカルな部分を迅速に捉えるために,値情報を利用する。
- 参考スコア(独自算出の注目度): 9.355903533901023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing a competent meta-reinforcement learning (meta-RL) algorithm in
terms of data usage remains a central challenge to be tackled for its
successful real-world applications. In this paper, we propose a
sample-efficient meta-RL algorithm that learns a model of the system or
environment at hand in a task-directed manner. As opposed to the standard
model-based approaches to meta-RL, our method exploits the value information in
order to rapidly capture the decision-critical part of the environment. The key
component of our method is the loss function for learning the task inference
module and the system model that systematically couples the model discrepancy
and the value estimate, thereby facilitating the learning of the policy and the
task inference module with a significantly smaller amount of data compared to
the existing meta-RL algorithms. The idea is also extended to a non-meta-RL
setting, namely an online linear quadratic regulator (LQR) problem, where our
method can be simplified to reveal the essence of the strategy. The proposed
method is evaluated in high-dimensional robotic control and online LQR
problems, empirically verifying its effectiveness in extracting information
indispensable for solving the tasks from observations in a sample efficient
manner.
- Abstract(参考訳): データ使用量の観点からの有能なmeta-reinforcement learning(meta-rl)アルゴリズムの設計は、実世界での成功に向けて取り組むべき中心的な課題である。
本稿では,タスク指向方式で手元にあるシステムや環境のモデルを学習する,サンプル効率のメタRLアルゴリズムを提案する。
メタRLの標準的なモデルベースアプローチとは対照的に,本手法では,環境の決定クリティカルな部分を迅速に捉えるために,値情報を利用する。
本手法の重要なコンポーネントは、タスク推論モジュールの学習のための損失関数と、モデルの不一致と値推定を体系的に結合するシステムモデルであり、これにより、既存のメタrlアルゴリズムに比べてかなり少ないデータ量で、ポリシーとタスク推論モジュールの学習を容易にする。
このアイデアは、オンライン線形二次規制 (LQR) 問題である非メタ-RL設定にも拡張され、この手法は戦略の本質を明らかにするために単純化することができる。
提案手法は高次元ロボット制御とオンラインLQR問題において評価され,実測値からタスクを効率的に解くのに欠かせない情報抽出の有効性を実証的に検証した。
関連論文リスト
- Meta-Gradient Search Control: A Method for Improving the Efficiency of Dyna-style Planning [8.552540426753]
本稿では,Dynaスタイルのプランニング中に状態がクエリされる確率を調整可能な,オンラインのメタグラディエントアルゴリズムを提案する。
その結果,提案手法は計画プロセスの効率化を図っている。
論文 参考訳(メタデータ) (2024-06-27T22:24:46Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - A model-based approach to meta-Reinforcement Learning: Transformers and
tree search [1.1602089225841632]
本稿では,メタRLにおける探索とエクスプロイトを成功させるために,オンラインプランニングにおけるモデルベースアプローチの有効性を示す。
メタRL問題に存在する潜在空間から生じる複雑な力学を学習するためのTransformerアーキテクチャの効率性を示す。
論文 参考訳(メタデータ) (2022-08-24T13:30:26Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - Improved Context-Based Offline Meta-RL with Attention and Contrastive
Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。
理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文 参考訳(メタデータ) (2021-02-22T05:05:16Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。