論文の概要: How to Leverage Unlabeled Data in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.01741v1
- Date: Thu, 3 Feb 2022 18:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 13:48:35.010077
- Title: How to Leverage Unlabeled Data in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるラベルなしデータ活用法
- Authors: Tianhe Yu, Aviral Kumar, Yevgen Chebotar, Karol Hausman, Chelsea Finn,
Sergey Levine
- Abstract要約: オフライン強化学習(RL)は、静的データセットから制御ポリシーを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。
1つの自然な解決策は、ラベル付けされたデータから報酬関数を学習し、ラベル付けされていないデータをラベル付けすることである。
ラベルのないデータに単純に報酬をゼロにする方が、効果的なデータ共有につながる。
- 参考スコア(独自算出の注目度): 125.72601809192365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) can learn control policies from static
datasets but, like standard RL methods, it requires reward annotations for
every transition. In many cases, labeling large datasets with rewards may be
costly, especially if those rewards must be provided by human labelers, while
collecting diverse unlabeled data might be comparatively inexpensive. How can
we best leverage such unlabeled data in offline RL? One natural solution is to
learn a reward function from the labeled data and use it to label the unlabeled
data. In this paper, we find that, perhaps surprisingly, a much simpler method
that simply applies zero rewards to unlabeled data leads to effective data
sharing both in theory and in practice, without learning any reward model at
all. While this approach might seem strange (and incorrect) at first, we
provide extensive theoretical and empirical analysis that illustrates how it
trades off reward bias, sample complexity and distributional shift, often
leading to good results. We characterize conditions under which this simple
strategy is effective, and further show that extending it with a simple
reweighting approach can further alleviate the bias introduced by using
incorrect reward labels. Our empirical evaluation confirms these findings in
simulated robotic locomotion, navigation, and manipulation settings.
- Abstract(参考訳): オフライン強化学習(RL)は静的データセットから制御ポリシを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。
多くの場合、大きなデータセットを報酬でラベリングするのはコストがかかり、特にその報酬が人間のラベラーによって提供されなければならない場合、多様なラベルのないデータを集めるのは比較的安価である。
このようなラベルのないデータをオフラインRLでどのように活用するか?
自然な解決策のひとつは、ラベル付きデータから報酬関数を学び、ラベル付きデータにラベル付けすることです。
本稿では,非ラベルデータに対する報酬をゼロにする手法が,理論上,実際上,報酬モデルをまったく学ばずに,効果的なデータ共有に繋がることを示す。
このアプローチは最初は奇妙に思えるかも知れません(そして間違っています)が、報奨バイアス、サンプル複雑性、分布シフトのトレードオフの方法を示す、広範な理論と経験的分析を提供しています。
この単純な戦略が有効である条件を特徴付けるとともに、簡単な再重み付けアプローチで拡張することで、不正な報酬ラベルによるバイアスをさらに軽減できることを示す。
実験により, ロボットの移動, ナビゲーション, 操作設定のシミュレーションを行った。
関連論文リスト
- Leveraging Unlabeled Data Sharing through Kernel Function Approximation in Offline Reinforcement Learning [3.8552182839941898]
オフライン強化学習(RL)は、固定データセットからポリシーを学ぶが、しばしば大量のデータを必要とする。
本稿では,カーネル関数近似を用いたオフラインRL法において,ラベルなしデータを利用するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-22T11:31:51Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Boosting Semi-Supervised Learning with Contrastive Complementary
Labeling [11.851898765002334]
一般的なアプローチは擬似ラベル作成であり、信頼度の高いラベル付きデータに対してのみ擬似ラベルを生成する。
信頼度が低い擬似ラベルを持つデータは、トレーニングプロセスにまだ有効である可能性があることを強調する。
そこで本研究では,多数の信頼な負対を構成する新しいコントラスト補完ラベリング法を提案する。
論文 参考訳(メタデータ) (2022-12-13T15:25:49Z) - Weighted Distillation with Unlabeled Examples [15.825078347452024]
ラベルなし例による蒸留は、ラベル付きデータの量を制限する設定において、ディープニューラルネットワークをトレーニングするための一般的で強力な方法である。
本稿では, 蒸留訓練のパラダイムに合わせて, 学生の損失関数の再重み付けに基づいて, この問題に対処するための原則的アプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T04:08:56Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Active learning for online training in imbalanced data streams under
cold start [0.8155575318208631]
本稿では,クラス不均衡の桁数を持つデータセットに対するアクティブラーニング(AL)アノテーションシステムを提案する。
本稿では,計算効率のよい Outlier-based Discriminative AL approach (ODAL) を提案する。
その結果,提案手法は標準ALポリシーよりも高速に高性能なモデルに到達できることが示唆された。
論文 参考訳(メタデータ) (2021-07-16T06:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。