論文の概要: Zero-shot Preference Learning for Offline RL via Optimal Transport
- arxiv url: http://arxiv.org/abs/2306.03615v1
- Date: Tue, 6 Jun 2023 12:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 15:33:50.598335
- Title: Zero-shot Preference Learning for Offline RL via Optimal Transport
- Title(参考訳): 最適輸送によるオフラインRLのゼロショット選好学習
- Authors: Runze Liu, Yali Du, Fengshuo Bai, Jiafei Lyu, Xiu Li
- Abstract要約: 本稿では,対象タスクのラベルを推測するために,ソースタスクからのラベル付き選好データを活用するゼロショット選好ベースRLアルゴリズムを提案する。
本手法は,スクリプトラベルの少ないニアオークル性能を実現する。
- 参考スコア(独自算出の注目度): 20.48407477084374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based Reinforcement Learning (PbRL) has demonstrated remarkable
efficacy in aligning rewards with human intentions. However, a significant
challenge lies in the need of substantial human labels, which is costly and
time-consuming. Additionally, the expensive preference data obtained from prior
tasks is not typically reusable for subsequent task learning, leading to
extensive labeling for each new task. In this paper, we propose a novel
zero-shot preference-based RL algorithm that leverages labeled preference data
from source tasks to infer labels for target tasks, eliminating the requirement
for human queries. Our approach utilizes Gromov-Wasserstein distance to align
trajectory distributions between source and target tasks. The solved optimal
transport matrix serves as a correspondence between trajectories of two tasks,
making it possible to identify corresponding trajectory pairs between tasks and
transfer the preference labels. However, learning directly from inferred labels
that contains a fraction of noisy labels will result in an inaccurate reward
function, subsequently affecting policy performance. To this end, we introduce
Robust Preference Transformer, which models the rewards as Gaussian
distributions and incorporates reward uncertainty in addition to reward mean.
The empirical results on robotic manipulation tasks of Meta-World and Robomimic
show that our method has strong capabilities of transferring preferences
between tasks and learns reward functions from noisy labels robustly.
Furthermore, we reveal that our method attains near-oracle performance with a
small proportion of scripted labels.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は、報酬と人間の意図の一致において顕著な効果を示した。
しかし、大きな課題は、コストと時間を要する、実質的な人間ラベルの必要性にある。
さらに、先行タスクから得られる高価な選好データは、通常、その後のタスク学習では再利用されず、新しいタスクごとに広範囲なラベル付けが行われる。
本稿では,ソースタスクからラベル付き選好データを活用し,対象タスクのラベルを推測し,ヒューマンクエリの必要をなくす,ゼロショット選好に基づくrlアルゴリズムを提案する。
提案手法は,Gromov-Wasserstein 距離を用いて,音源と目標タスク間の軌道分布を整列する。
最適輸送行列は、2つのタスクの軌道間の対応として機能し、タスク間の対応する軌道対を識別し、優先ラベルを転送することができる。
しかし、ノイズの少ないラベルを含む推論されたラベルから直接学習すると、不正確な報酬関数が発生し、その後ポリシーのパフォーマンスに影響を及ぼす。
この目的のために,報奨をガウス分布としてモデル化し,報奨平均に加えて報奨不確実性を組み込んだRobust Preference Transformerを導入する。
Meta-World と Robomimic のロボット操作における実験結果から,タスク間の好みを伝達し,ノイズラベルから報酬関数を頑健に学習する能力が強いことが示唆された。
さらに,本手法はoracleに近い性能を,少数のスクリプトラベルで達成できることが判明した。
関連論文リスト
- Coreset-Based Task Selection for Sample-Efficient Meta-Reinforcement Learning [1.2952597101899859]
モデル非依存型メタ強化学習(MAML-RL)におけるサンプル効率向上のためのタスク選択の検討
勾配空間におけるタスクの多様性に基づいて,タスクの重み付きサブセットを選択する,コアセットベースのタスク選択手法を提案する。
複数のRLベンチマーク問題にまたがるこの傾向を数値的に検証し,LQRベースラインを越えたタスク選択の利点について考察した。
論文 参考訳(メタデータ) (2025-02-04T14:09:00Z) - BeST -- A Novel Source Selection Metric for Transfer Learning [35.32994166809785]
与えられたタスクに対して最も転送可能なソースを特定するための新しいタスク類似度指標(BeST)を開発する。
提案手法は,多数のソースモデルを選択することで,転送学習に多大な費用を費やすことができる。
論文 参考訳(メタデータ) (2025-01-19T03:58:05Z) - Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences [12.775486996512434]
嗜好に基づく強化学習は、エージェント行動に関する人間教師の嗜好から直接学習する。
既存のPBRL法はしばしば明示的な選好から学習し、教師が平等な選好を選択する可能性を無視している。
そこで本稿では,PBRL手法であるMulti-Type Preference Learning (MTPL)を提案する。
論文 参考訳(メタデータ) (2024-09-11T13:43:49Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Selecting task with optimal transport self-supervised learning for
few-shot classification [15.088213168796772]
Few-Shot分類は、トレーニングプロセスで利用可能なサンプルはわずかである、という問題を解決することを目的としている。
本稿では,Few-Shot 学習のための類似タスクを選択して学習セットを構築するために,OTTS (Optimal Transport Task Selecting) という新しいタスク選択アルゴリズムを提案する。
OTTSは最適な輸送距離を計算してタスク類似度を測定し、自己監督戦略を通じてモデルトレーニングを完了させる。
論文 参考訳(メタデータ) (2022-04-01T08:45:29Z) - Diversity-based Trajectory and Goal Selection with Hindsight Experience
Replay [8.259694128526112]
我々はHER(DTGSH)を用いた多様性に基づく軌道と目標選択を提案する。
提案手法は,全てのタスクにおいて,他の最先端手法よりも高速に学習し,高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2021-08-17T21:34:24Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。