論文の概要: Offline Reinforcement Learning with Domain-Unlabeled Data
- arxiv url: http://arxiv.org/abs/2404.07465v2
- Date: Sat, 01 Mar 2025 00:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:04:42.744778
- Title: Offline Reinforcement Learning with Domain-Unlabeled Data
- Title(参考訳): ドメイン非ラベルデータを用いたオフライン強化学習
- Authors: Soichiro Nishimori, Xin-Qiang Cai, Johannes Ackermann, Masashi Sugiyama,
- Abstract要約: ロボット工学において、正確なシステム識別は、展開の一部としてのみ実行される可能性がある。
我々は、少数のラベル付きターゲットドメインデータを持つ新しいオフラインRL設定である、Positive-Unlabeled Offline RL (PUORL)を考える。
提案手法は,目標領域のサンプルを正確に同定し,動的シフトがかなり大きい場合でも高い性能を実現する。
- 参考スコア(独自算出の注目度): 45.65330937504355
- License:
- Abstract: Offline reinforcement learning (RL) is vital in areas where active data collection is expensive or infeasible, such as robotics or healthcare. In the real world, offline datasets often involve multiple domains that share the same state and action spaces but have distinct dynamics, and only a small fraction of samples are clearly labeled as belonging to the target domain we are interested in. For example, in robotics, precise system identification may only have been performed for part of the deployments. To address this challenge, we consider Positive-Unlabeled Offline RL (PUORL), a novel offline RL setting in which we have a small amount of labeled target-domain data and a large amount of domain-unlabeled data from multiple domains, including the target domain. For PUORL, we propose a plug-and-play approach that leverages positive-unlabeled (PU) learning to train a domain classifier. The classifier then extracts target-domain samples from the domain-unlabeled data, augmenting the scarce target-domain data. Empirical results on a modified version of the D4RL benchmark demonstrate the effectiveness of our method: even when only 1 to 3 percent of the dataset is domain-labeled, our approach accurately identifies target-domain samples and achieves high performance, even under substantial dynamics shift. Our plug-and-play algorithm seamlessly integrates PU learning with existing offline RL pipelines, enabling effective multi-domain data utilization in scenarios where comprehensive domain labeling is prohibitive.
- Abstract(参考訳): オフライン強化学習(RL)は、ロボット工学や医療など、アクティブなデータ収集が高価または不可能な分野において不可欠である。
実世界では、オフラインデータセットは、同じ状態とアクション空間を共有するが、異なるダイナミクスを持つ複数のドメインを含むことが多い。
例えば、ロボット工学では、正確なシステム識別はデプロイメントの一部としてのみ実行される可能性がある。
この課題に対処するために、我々は、ターゲットドメインを含む複数のドメインから少量のラベル付きターゲットドメインデータと大量のドメイン未ラベルデータを持つ、新しいオフラインRL設定である、PUORL(Positive-Unlabeled Offline RL)を検討する。
PUORLに対して,正の未ラベル学習(PU)を利用してドメイン分類器の学習を行うプラグイン・アンド・プレイ方式を提案する。
次に、分類器は、未ラベルデータからターゲットドメインサンプルを抽出し、少ないターゲットドメインデータを増大させる。
D4RLベンチマークの修正版に対する実証的な結果から,本手法の有効性が示された。データセットの1~3%がドメインラベル付きである場合でも,本手法はターゲットドメインサンプルを正確に識別し,相当な動的シフトの下でも高い性能を達成する。
我々のプラグアンドプレイアルゴリズムは、PU学習を既存のオフラインRLパイプラインとシームレスに統合し、包括的なドメインラベリングが禁止されているシナリオにおいて、効果的なマルチドメインデータ利用を可能にする。
関連論文リスト
- LE-UDA: Label-efficient unsupervised domain adaptation for medical image
segmentation [24.655779957716558]
ラベル有効非教師付きドメイン適応(LE-UDA)と呼ばれる新規で汎用的なフレームワークを提案する。
LE-UDAでは、両ドメイン間の知識伝達のための自己認識一貫性と、UDAの機能アライメントを向上するために自己認識学習モジュールを構築している。
実験結果から,提案するLE-UDAは,限られたソースラベルを有効活用し,ドメイン間セグメンテーション性能を向上し,文献における最先端のUDAアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-05T07:47:35Z) - CA-UDA: Class-Aware Unsupervised Domain Adaptation with Optimal
Assignment and Pseudo-Label Refinement [84.10513481953583]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ターゲットデータに欠けているラベルのサロゲートとして、優れた擬似ラベルの選択に焦点を当てる。
ソースとターゲットドメインの共有ネットワークが通常、擬似ラベルの選択に使用されるため、擬似ラベルを劣化させるソースドメインバイアスは依然として存在する。
本稿では, 擬似ラベルの品質向上のためのCA-UDAを提案し, 最適課題, 擬似ラベル改善戦略, クラス対応ドメインアライメントを提案する。
論文 参考訳(メタデータ) (2022-05-26T18:45:04Z) - Positive-Unlabeled Domain Adaptation [7.143879014059893]
ポジティブ・アンラベル・ドメイン適応問題に対する2段階の新たな学習手法を提案する。
我々は、ソースドメインラベルと正の未ラベルリスク推定器によって導かれる対象ドメインの信頼度の高い正と負の擬似ラベルを同定する。
我々は、ビジュアルオブジェクト認識のためのベンチマークデータセットで実験を行うことで、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2022-02-11T15:32:02Z) - Domain Adaptive Semantic Segmentation without Source Data [50.18389578589789]
モデルがソースドメイン上で事前学習されていることを前提として、ソースデータのないドメイン適応セマンティックセマンティックセマンティックセマンティクスについて検討する。
本稿では,この課題に対して,肯定的学習と否定的学習という2つの要素を用いた効果的な枠組みを提案する。
私たちのフレームワークは、パフォーマンスをさらに向上するために、他のメソッドに簡単に実装および組み込むことができます。
論文 参考訳(メタデータ) (2021-10-13T04:12:27Z) - Towards Unsupervised Domain Adaptation for Deep Face Recognition under
Privacy Constraints via Federated Learning [33.33475702665153]
FedFR (Unsupervised Federated Face Recognition approach) を提案する。
fedfrは、フェデレーション学習を通じてソースドメインから知識を反復的に集約することで、ターゲットドメインのパフォーマンスを向上させる。
ドメイン間の生データの代わりにモデルを転送することで、データプライバシーを保護します。
論文 参考訳(メタデータ) (2021-05-17T04:24:25Z) - Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。
複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文 参考訳(メタデータ) (2021-04-02T12:53:15Z) - Effective Label Propagation for Discriminative Semi-Supervised Domain
Adaptation [76.41664929948607]
半教師付き領域適応(SSDA)法は,大規模な画像分類タスクにおいて大きな可能性を示している。
本稿では、ドメイン間およびドメイン内セマンティック情報を効果的に伝達することにより、この問題に対処する新しい効果的な方法を提案する。
ソースコードと事前訓練されたモデルも間もなくリリースされる予定です。
論文 参考訳(メタデータ) (2020-12-04T14:28:19Z) - Discriminative Cross-Domain Feature Learning for Partial Domain
Adaptation [70.45936509510528]
部分的なドメイン適応は、より大きく多様なソースドメインからの知識を、より少ないクラス数でより小さなターゲットドメインに適応させることを目的としています。
ドメイン適応の最近の実践は、ターゲットドメインの擬似ラベルを組み込むことで、効果的な特徴を抽出する。
ターゲットデータを少数のソースデータのみにアライメントすることが不可欠である。
論文 参考訳(メタデータ) (2020-08-26T03:18:53Z) - Clarinet: A One-step Approach Towards Budget-friendly Unsupervised
Domain Adaptation [39.53192710720228]
教師なしドメイン適応(UDA)では、対象ドメインの分類器は、ソースドメインからの膨大な真ラベルデータと対象ドメインからの未ラベルデータで訓練される。
本稿では、対象ドメインの分類器を、ソースドメインからの補完ラベルデータと、対象ドメインからの未ラベルデータと、予算に優しいUDAとで訓練しなければならない、新たな問題設定について考察する。
The complementary label adversarial network (CLARINET) is proposed to solve the BFUDA problem。
論文 参考訳(メタデータ) (2020-07-29T05:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。