Fugu-MT 論文翻訳(概要): Goal-Conditioned Offline Reinforcement Learning via Metric Learning

論文の概要: Goal-Conditioned Offline Reinforcement Learning via Metric Learning

arxiv url: http://arxiv.org/abs/2402.10820v1
Date: Fri, 16 Feb 2024 16:46:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 15:03:19.377463
Title: Goal-Conditioned Offline Reinforcement Learning via Metric Learning
Title（参考訳）: メトリック学習によるゴールコンディションオフライン強化学習
Authors: Alfredo Reichlin, Miguel Vasco, Hang Yin, Danica Kragic
Abstract要約: 目標条件付きオフライン強化学習の文脈における最適データセットからの最適行動学習の問題に対処する。本稿では, 目標条件付きオフラインRL問題に対する最適値関数を, 厳密な報酬, 対称性, 決定論的行動の下で近似する方法を提案する。提案手法は,準最適オフラインデータセットからの学習において,他のオフラインRLベースラインを一貫して上回ることを示す。
参考スコア（独自算出の注目度）: 24.224380153671394
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we address the problem of learning optimal behavior from sub-optimal datasets in the context of goal-conditioned offline reinforcement learning. To do so, we propose a novel way of approximating the optimal value function for goal-conditioned offline RL problems under sparse rewards, symmetric and deterministic actions. We study a property for representations to recover optimality and propose a new optimization objective that leads to such property. We use the learned value function to guide the learning of a policy in an actor-critic fashion, a method we name MetricRL. Experimentally, we show how our method consistently outperforms other offline RL baselines in learning from sub-optimal offline datasets. Moreover, we show the effectiveness of our method in dealing with high-dimensional observations and in multi-goal tasks.
Abstract（参考訳）: 本研究では,目標条件付きオフライン強化学習の文脈における最適データセットからの最適行動学習の問題に対処する。そこで本研究では,目標条件付きオフラインrl問題の最適値関数を分散報酬,対称的,決定論的に近似する新しい手法を提案する。最適性を回復するための表現の特性を考察し,その性質を導く新しい最適化目標を提案する。我々は、学習値関数を用いて、アクター-批判的な方法でポリシーの学習をガイドする。実験により,本手法が準最適オフラインデータセットからの学習において,他のオフラインRLベースラインを一貫して上回ることを示す。さらに,本手法が高次元観測や多目的タスクにおいて有効であることを示す。

関連論文リスト

Behavior Preference Regression for Offline Reinforcement Learning [0.0]
オフライン強化学習(RL)手法は、固定データセットの軌跡のみにアクセスして最適なポリシーを学習することを目的としている。政策制約法は、報酬の最大化と政策からの逸脱の最小化とのバランスをとる最適化問題として政策学習を定式化する。オフラインRLに対する振る舞い回帰予測とペア比較のアプローチを適応する。我々は、広く使われているD4RL LocomotionとAntmazeのデータセットと、より難しいV-D4RLスイートでBPRを実証的に評価した。
論文参考訳（メタデータ） (2025-03-02T15:13:02Z)
Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文参考訳（メタデータ） (2024-06-26T15:59:13Z)
From Function to Distribution Modeling: A PAC-Generative Approach to Offline Optimization [30.689032197123755]
本稿では、オフラインデータ例の集合を除いて目的関数が不明なオフライン最適化の問題について考察する。未知の目的関数を学習して最適化するのではなく、より直感的で直接的な視点で、最適化は生成モデルからサンプリングするプロセスと考えることができる。
論文参考訳（メタデータ） (2024-01-04T01:32:50Z)
Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-06T17:58:14Z)
Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data [28.445166861907495]
我々は,TMISオフライン政策評価(OPE)推定器の理論を開発する。我々は、その推定誤差に基づいて高確率、インスタンス依存境界を導出する。また,適応環境での極小最適オフライン学習を復元する。
論文参考訳（メタデータ） (2023-06-24T21:48:28Z)
Offline RL Policies Should be Trained to be Adaptive [89.8580376798065]
ベイズ的意味において、オフラインRLで最適に振る舞うには暗黙のPOMDPを解く必要があることを示す。結果として、オフラインRLの最適ポリシーは、現在の状態だけでなく、評価中にこれまで見られたすべての遷移に依存して適応されなければならない。本稿では、この最適適応ポリシーを近似するモデルフリーアルゴリズムを提案し、オフラインRLベンチマークにおける適応ポリシーの学習の有効性を実証する。
論文参考訳（メタデータ） (2022-07-05T17:58:33Z)
Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文参考訳（メタデータ） (2021-10-19T08:20:11Z)
OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。 OptiDICEは最先端の手法と競合して動作することを示す。
論文参考訳（メタデータ） (2021-06-21T00:43:30Z)
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。 MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文参考訳（メタデータ） (2021-06-16T20:48:49Z)
Representation Matters: Offline Pretraining for Sequential Decision Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文参考訳（メタデータ） (2021-02-11T02:38:12Z)
Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文参考訳（メタデータ） (2020-12-30T09:06:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。