論文の概要: Leveraging Domain-Unlabeled Data in Offline Reinforcement Learning across Two Domains
- arxiv url: http://arxiv.org/abs/2404.07465v1
- Date: Thu, 11 Apr 2024 04:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-12 15:08:41.550438
- Title: Leveraging Domain-Unlabeled Data in Offline Reinforcement Learning across Two Domains
- Title(参考訳): オフライン強化学習におけるドメイン非ラベルデータの活用
- Authors: Soichiro Nishimori, Xin-Qiang Cai, Johannes Ackermann, Masashi Sugiyama,
- Abstract要約: 擬似無ラベルオフラインRL (PUORL) という新しいオフラインRL問題について紹介する。
我々は、正の未ラベル学習を利用して、ドメイン未ラベルデータのドメインラベルを予測するオフラインRLアルゴリズムを開発した。
本実験は,ドメインと学習方針を正確に識別する手法の有効性を示す。
- 参考スコア(独自算出の注目度): 45.65330937504355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate an offline reinforcement learning (RL) problem where datasets are collected from two domains. In this scenario, having datasets with domain labels facilitates efficient policy training. However, in practice, the task of assigning domain labels can be resource-intensive or infeasible at a large scale, leading to a prevalence of domain-unlabeled data. To formalize this challenge, we introduce a novel offline RL problem setting named Positive-Unlabeled Offline RL (PUORL), which incorporates domain-unlabeled data. To address PUORL, we develop an offline RL algorithm utilizing positive-unlabeled learning to predict the domain labels of domain-unlabeled data, enabling the integration of this data into policy training. Our experiments show the effectiveness of our method in accurately identifying domains and learning policies that outperform baselines in the PUORL setting, highlighting its capability to leverage domain-unlabeled data effectively.
- Abstract(参考訳): 本稿では,2つのドメインからデータセットを収集するオフライン強化学習(RL)問題について検討する。
このシナリオでは、ドメインラベルを持つデータセットは、効率的なポリシートレーニングを促進する。
しかし、実際には、ドメインラベルを割り当てるタスクは、大規模にリソース集約的または非実用的であり、ドメイン未ラベルデータの普及につながる可能性がある。
この課題を定式化するために、ドメイン未ラベルデータを含むPositive-Unlabeled Offline RL (PUORL) という新しいオフラインRL問題設定を導入する。
PUORLに対処するために、正の未ラベル学習を利用して、ドメイン未ラベルデータのドメインラベルを予測するオフラインRLアルゴリズムを開発し、このデータをポリシートレーニングに統合する。
本実験は,PUORL設定におけるベースラインよりも優れたドメインと学習ポリシーを正確に同定する手法の有効性を示し,ドメイン未ラベルデータを効果的に活用する能力を強調した。
関連論文リスト
- LE-UDA: Label-efficient unsupervised domain adaptation for medical image
segmentation [24.655779957716558]
ラベル有効非教師付きドメイン適応(LE-UDA)と呼ばれる新規で汎用的なフレームワークを提案する。
LE-UDAでは、両ドメイン間の知識伝達のための自己認識一貫性と、UDAの機能アライメントを向上するために自己認識学習モジュールを構築している。
実験結果から,提案するLE-UDAは,限られたソースラベルを有効活用し,ドメイン間セグメンテーション性能を向上し,文献における最先端のUDAアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-05T07:47:35Z) - CA-UDA: Class-Aware Unsupervised Domain Adaptation with Optimal
Assignment and Pseudo-Label Refinement [84.10513481953583]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ターゲットデータに欠けているラベルのサロゲートとして、優れた擬似ラベルの選択に焦点を当てる。
ソースとターゲットドメインの共有ネットワークが通常、擬似ラベルの選択に使用されるため、擬似ラベルを劣化させるソースドメインバイアスは依然として存在する。
本稿では, 擬似ラベルの品質向上のためのCA-UDAを提案し, 最適課題, 擬似ラベル改善戦略, クラス対応ドメインアライメントを提案する。
論文 参考訳(メタデータ) (2022-05-26T18:45:04Z) - Dynamic Instance Domain Adaptation [109.53575039217094]
教師なしのドメイン適応に関するほとんどの研究は、各ドメインのトレーニングサンプルがドメインラベルを伴っていると仮定している。
適応的な畳み込みカーネルを持つ動的ニューラルネットワークを開発し、各インスタンスにドメインに依存しない深い特徴を適応させるために、インスタンス適応残差を生成する。
我々のモデルはDIDA-Netと呼ばれ、複数の一般的な単一ソースおよび複数ソースのUDAデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-09T20:05:54Z) - Positive-Unlabeled Domain Adaptation [7.143879014059893]
ポジティブ・アンラベル・ドメイン適応問題に対する2段階の新たな学習手法を提案する。
我々は、ソースドメインラベルと正の未ラベルリスク推定器によって導かれる対象ドメインの信頼度の高い正と負の擬似ラベルを同定する。
我々は、ビジュアルオブジェクト認識のためのベンチマークデータセットで実験を行うことで、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2022-02-11T15:32:02Z) - Domain Adaptive Semantic Segmentation without Source Data [50.18389578589789]
モデルがソースドメイン上で事前学習されていることを前提として、ソースデータのないドメイン適応セマンティックセマンティックセマンティックセマンティクスについて検討する。
本稿では,この課題に対して,肯定的学習と否定的学習という2つの要素を用いた効果的な枠組みを提案する。
私たちのフレームワークは、パフォーマンスをさらに向上するために、他のメソッドに簡単に実装および組み込むことができます。
論文 参考訳(メタデータ) (2021-10-13T04:12:27Z) - Cross-domain Contrastive Learning for Unsupervised Domain Adaptation [108.63914324182984]
教師なしドメイン適応(Unsupervised domain adapt、UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。
対照的な自己教師型学習に基づいて、トレーニングとテストセット間のドメインの相違を低減するために、機能を整列させます。
論文 参考訳(メタデータ) (2021-06-10T06:32:30Z) - Towards Unsupervised Domain Adaptation for Deep Face Recognition under
Privacy Constraints via Federated Learning [33.33475702665153]
FedFR (Unsupervised Federated Face Recognition approach) を提案する。
fedfrは、フェデレーション学習を通じてソースドメインから知識を反復的に集約することで、ターゲットドメインのパフォーマンスを向上させる。
ドメイン間の生データの代わりにモデルを転送することで、データプライバシーを保護します。
論文 参考訳(メタデータ) (2021-05-17T04:24:25Z) - Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。
複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文 参考訳(メタデータ) (2021-04-02T12:53:15Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Effective Label Propagation for Discriminative Semi-Supervised Domain
Adaptation [76.41664929948607]
半教師付き領域適応(SSDA)法は,大規模な画像分類タスクにおいて大きな可能性を示している。
本稿では、ドメイン間およびドメイン内セマンティック情報を効果的に伝達することにより、この問題に対処する新しい効果的な方法を提案する。
ソースコードと事前訓練されたモデルも間もなくリリースされる予定です。
論文 参考訳(メタデータ) (2020-12-04T14:28:19Z) - Discriminative Cross-Domain Feature Learning for Partial Domain
Adaptation [70.45936509510528]
部分的なドメイン適応は、より大きく多様なソースドメインからの知識を、より少ないクラス数でより小さなターゲットドメインに適応させることを目的としています。
ドメイン適応の最近の実践は、ターゲットドメインの擬似ラベルを組み込むことで、効果的な特徴を抽出する。
ターゲットデータを少数のソースデータのみにアライメントすることが不可欠である。
論文 参考訳(メタデータ) (2020-08-26T03:18:53Z) - Clarinet: A One-step Approach Towards Budget-friendly Unsupervised
Domain Adaptation [39.53192710720228]
教師なしドメイン適応(UDA)では、対象ドメインの分類器は、ソースドメインからの膨大な真ラベルデータと対象ドメインからの未ラベルデータで訓練される。
本稿では、対象ドメインの分類器を、ソースドメインからの補完ラベルデータと、対象ドメインからの未ラベルデータと、予算に優しいUDAとで訓練しなければならない、新たな問題設定について考察する。
The complementary label adversarial network (CLARINET) is proposed to solve the BFUDA problem。
論文 参考訳(メタデータ) (2020-07-29T05:31:58Z) - Cross-domain Self-supervised Learning for Domain Adaptation with Few
Source Labels [78.95901454696158]
ドメイン適応のためのクロスドメイン自己教師型学習手法を提案する。
本手法は,ソースラベルが少ない新しいターゲット領域において,ターゲット精度を著しく向上させる。
論文 参考訳(メタデータ) (2020-03-18T15:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。