論文の概要: Zero-shot Preference Learning for Offline RL via Optimal Transport
- arxiv url: http://arxiv.org/abs/2306.03615v1
- Date: Tue, 6 Jun 2023 12:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 15:33:50.598335
- Title: Zero-shot Preference Learning for Offline RL via Optimal Transport
- Title(参考訳): 最適輸送によるオフラインRLのゼロショット選好学習
- Authors: Runze Liu, Yali Du, Fengshuo Bai, Jiafei Lyu, Xiu Li
- Abstract要約: 本稿では,対象タスクのラベルを推測するために,ソースタスクからのラベル付き選好データを活用するゼロショット選好ベースRLアルゴリズムを提案する。
本手法は,スクリプトラベルの少ないニアオークル性能を実現する。
- 参考スコア(独自算出の注目度): 20.48407477084374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based Reinforcement Learning (PbRL) has demonstrated remarkable
efficacy in aligning rewards with human intentions. However, a significant
challenge lies in the need of substantial human labels, which is costly and
time-consuming. Additionally, the expensive preference data obtained from prior
tasks is not typically reusable for subsequent task learning, leading to
extensive labeling for each new task. In this paper, we propose a novel
zero-shot preference-based RL algorithm that leverages labeled preference data
from source tasks to infer labels for target tasks, eliminating the requirement
for human queries. Our approach utilizes Gromov-Wasserstein distance to align
trajectory distributions between source and target tasks. The solved optimal
transport matrix serves as a correspondence between trajectories of two tasks,
making it possible to identify corresponding trajectory pairs between tasks and
transfer the preference labels. However, learning directly from inferred labels
that contains a fraction of noisy labels will result in an inaccurate reward
function, subsequently affecting policy performance. To this end, we introduce
Robust Preference Transformer, which models the rewards as Gaussian
distributions and incorporates reward uncertainty in addition to reward mean.
The empirical results on robotic manipulation tasks of Meta-World and Robomimic
show that our method has strong capabilities of transferring preferences
between tasks and learns reward functions from noisy labels robustly.
Furthermore, we reveal that our method attains near-oracle performance with a
small proportion of scripted labels.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は、報酬と人間の意図の一致において顕著な効果を示した。
しかし、大きな課題は、コストと時間を要する、実質的な人間ラベルの必要性にある。
さらに、先行タスクから得られる高価な選好データは、通常、その後のタスク学習では再利用されず、新しいタスクごとに広範囲なラベル付けが行われる。
本稿では,ソースタスクからラベル付き選好データを活用し,対象タスクのラベルを推測し,ヒューマンクエリの必要をなくす,ゼロショット選好に基づくrlアルゴリズムを提案する。
提案手法は,Gromov-Wasserstein 距離を用いて,音源と目標タスク間の軌道分布を整列する。
最適輸送行列は、2つのタスクの軌道間の対応として機能し、タスク間の対応する軌道対を識別し、優先ラベルを転送することができる。
しかし、ノイズの少ないラベルを含む推論されたラベルから直接学習すると、不正確な報酬関数が発生し、その後ポリシーのパフォーマンスに影響を及ぼす。
この目的のために,報奨をガウス分布としてモデル化し,報奨平均に加えて報奨不確実性を組み込んだRobust Preference Transformerを導入する。
Meta-World と Robomimic のロボット操作における実験結果から,タスク間の好みを伝達し,ノイズラベルから報酬関数を頑健に学習する能力が強いことが示唆された。
さらに,本手法はoracleに近い性能を,少数のスクリプトラベルで達成できることが判明した。
関連論文リスト
- Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - MyriadAL: Active Few Shot Learning for Histopathology [10.652626309100889]
我々は、Myriad Active Learning (MAL)という、アクティブな数個のショットラーニングフレームワークを導入する。
MALには、コントラスト学習エンコーダ、擬似ラベル生成、ループ内の新しいクエリサンプル選択が含まれている。
2つの公的な病理組織学データセットの実験により、MALは以前の研究に比べてテスト精度、マクロF1スコア、ラベル効率が優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T20:08:15Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - CaSP: Class-agnostic Semi-Supervised Pretraining for Detection and
Segmentation [60.28924281991539]
本稿では,タスク固有性バランスを向上するために,クラス非依存型半教師付き事前学習(CaSP)フレームワークを提案する。
我々は3.6Mの未ラベルデータを用いて、ImageNetで規定されたオブジェクト検出のベースラインよりも4.7%の顕著なパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2021-12-09T14:54:59Z) - Batch Reinforcement Learning from Crowds [24.717084423091865]
バッチ強化学習の欠点は、データに対する報酬の要求である。
行動クローンのような報酬の欠如に関する既存の設定は、人間から集めた最適なデモンストレーションに依存している。
本論文は、選好から報酬関数を学習することで、バッチ強化学習環境における報酬の欠如に対処する。
論文 参考訳(メタデータ) (2021-11-08T05:46:33Z) - Squeezing Backbone Feature Distributions to the Max for Efficient
Few-Shot Learning [3.1153758106426603]
ラベル付きサンプルの少ない使用によって生じる不確実性のため、ほとんどショット分類が難しい問題である。
本稿では,特徴ベクトルをガウス分布に近づけるように処理するトランスファーベース手法を提案する。
また,学習中に未学習のサンプルが利用可能となる多段階的数ショット学習では,達成された性能をさらに向上させる最適なトランスポートインスピレーションアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-10-18T16:29:17Z) - Learning Stable Classifiers by Transferring Unstable Features [59.06169363181417]
本研究では,素早い相関関係の存在下での伝達学習について検討する。
提案手法は, ソースタスクで学習した安定な特徴抽出器を直接転送しても, 対象タスクのバイアスを排除できないことを実験的に実証する。
我々は、ソースタスクの不安定な特徴とターゲットタスクの不安定な特徴が直接関連していると仮定する。
論文 参考訳(メタデータ) (2021-06-15T02:41:12Z) - Self-Supervised Relational Reasoning for Representation Learning [5.076419064097733]
自己教師型学習では、ラベルのないデータに対して代替ターゲットを定義することにより、代理目的を達成することを課題とする。
本稿では,学習者が無ラベルデータに暗黙的な情報から信号をブートストラップできる,新たな自己教師型関係推論法を提案する。
提案手法は,標準データセット,プロトコル,バックボーンを用いて,厳密な実験手順に従って評価する。
論文 参考訳(メタデータ) (2020-06-10T14:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。