論文の概要: Contrastive Representation for Data Filtering in Cross-Domain Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.06192v1
- Date: Fri, 10 May 2024 02:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 16:57:10.583903
- Title: Contrastive Representation for Data Filtering in Cross-Domain Offline Reinforcement Learning
- Title(参考訳): クロスドメインオフライン強化学習におけるデータフィルタリングのコントラスト表現
- Authors: Xiaoyu Wen, Chenjia Bai, Kang Xu, Xudong Yu, Yang Zhang, Xuelong Li, Zhen Wang,
- Abstract要約: クロスドメインオフライン強化学習は、ターゲットドメインのデータ要求を軽減するために、さまざまなトランジションダイナミクスを備えたソースドメインデータを活用する。
既存の手法は、ペア化されたドメインの転送可能性の仮定に依存しながら、ドメイン分類器を介してダイナミックスギャップを測定することでこの問題に対処する。
本稿では,異なる領域からの遷移をサンプリングすることで,対照的な目的によって表現が学習される領域ギャップを測定するための新しい表現ベースアプローチを提案する。
- 参考スコア(独自算出の注目度): 46.08671291758573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-domain offline reinforcement learning leverages source domain data with diverse transition dynamics to alleviate the data requirement for the target domain. However, simply merging the data of two domains leads to performance degradation due to the dynamics mismatch. Existing methods address this problem by measuring the dynamics gap via domain classifiers while relying on the assumptions of the transferability of paired domains. In this paper, we propose a novel representation-based approach to measure the domain gap, where the representation is learned through a contrastive objective by sampling transitions from different domains. We show that such an objective recovers the mutual-information gap of transition functions in two domains without suffering from the unbounded issue of the dynamics gap in handling significantly different domains. Based on the representations, we introduce a data filtering algorithm that selectively shares transitions from the source domain according to the contrastive score functions. Empirical results on various tasks demonstrate that our method achieves superior performance, using only 10% of the target data to achieve 89.2% of the performance on 100% target dataset with state-of-the-art methods.
- Abstract(参考訳): クロスドメインオフライン強化学習は、ターゲットドメインのデータ要求を軽減するために、さまざまなトランジションダイナミクスを備えたソースドメインデータを活用する。
しかし、2つのドメインのデータをマージするだけで、動的ミスマッチによってパフォーマンスが低下する。
既存の手法は、ペア化されたドメインの転送可能性の仮定に依存しながら、ドメイン分類器を介してダイナミックスギャップを測定することでこの問題に対処する。
本稿では,異なる領域からの遷移をサンプリングすることで,対照的な目的によって表現が学習される領域ギャップを測定するための新しい表現ベースアプローチを提案する。
本研究では,2つの領域における遷移関数の相互情報ギャップを,異なる領域を扱う際の動的ギャップの非有界な問題に悩まされることなく回復することを示す。
この表現に基づいて、コントラストスコア関数に従って、ソース領域からの遷移を選択的に共有するデータフィルタリングアルゴリズムを導入する。
実験結果から, 対象データの10%しか使用せず, 目標データセットの89.2%を最先端の手法で達成していることが明らかとなった。
関連論文リスト
- Style Adaptation for Domain-adaptive Semantic Segmentation [2.1365683052370046]
ドメインの不一致は、ターゲットドメインに適用した場合、ソースドメインデータに基づいてトレーニングされた一般的なネットワークモデルの性能を著しく低下させる。
パラメータ計算を必要とせず、自己学習に基づくUDA手法とシームレスに統合する。
提案手法は,GTA->Cityscapesデータセット上で76.93 mIoUの有意なUDA性能を達成し,過去の成果に比べて+1.03ポイント向上したことを示す。
論文 参考訳(メタデータ) (2024-04-25T02:51:55Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - MADAv2: Advanced Multi-Anchor Based Active Domain Adaptation
Segmentation [98.09845149258972]
セマンティックセグメンテーションタスクに関するドメイン適応を支援するために,アクティブなサンプル選択を導入する。
これらのサンプルを手動でアノテートする作業量が少ないため、ターゲット領域分布の歪みを効果的に緩和することができる。
長期分布問題を緩和するために、強力な半教師付きドメイン適応戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T07:55:22Z) - Mere Contrastive Learning for Cross-Domain Sentiment Analysis [23.350121129347556]
クロスドメイン感情分析は、ソースドメインでトレーニングされたモデルを使用して、ターゲットドメイン内のテキストの感情を予測することを目的としている。
従来の研究はほとんどがクロスエントロピーに基づく手法であり、不安定性や一般化の低さに悩まされていた。
我々は,同じクラスからの文表現を閉じるように,バッチ内の負のサンプルを付加した改良されたコントラスト目的を提案する。
論文 参考訳(メタデータ) (2022-08-18T07:25:55Z) - Joint Attention-Driven Domain Fusion and Noise-Tolerant Learning for
Multi-Source Domain Adaptation [2.734665397040629]
マルチソースUnsupervised Domain Adaptationはラベル付きデータを持つ複数のソースドメインからラベル付きターゲットドメインに知識を転送する。
異なるドメインとターゲットドメイン内のノイズの多い擬似ラベル間の分散の相違は、どちらもパフォーマンスのボトルネックにつながる。
本稿では,意識駆動型ドメイン融合(ADNT)と雑音耐性学習(ADNT)を統合し,上記の2つの問題に対処するアプローチを提案する。
論文 参考訳(メタデータ) (2022-08-05T01:08:41Z) - Cross-Domain Grouping and Alignment for Domain Adaptive Semantic
Segmentation [74.3349233035632]
深層畳み込みニューラルネットワーク(CNN)内のソースドメインとターゲットドメインにセマンティックセグメンテーションネットワークを適用する既存の技術は、対象ドメイン自身や推定カテゴリ内のクラス間変異を考慮していない。
学習可能なクラスタリングモジュールと、クロスドメイングルーピングとアライメントと呼ばれる新しいドメイン適応フレームワークを導入する。
本手法はセマンティクスセグメンテーションにおける適応性能を一貫して向上させ,様々なドメイン適応設定において最先端を上回っている。
論文 参考訳(メタデータ) (2020-12-15T11:36:21Z) - Towards Adaptive Semantic Segmentation by Progressive Feature Refinement [16.40758125170239]
セグメンテーションネットワークの転送可能性を高めるために,ドメイン逆学習とともに,革新的なプログレッシブな特徴改善フレームワークを提案する。
その結果、ソース・ドメイン・イメージで訓練されたセグメンテーション・モデルは、大幅な性能劣化を伴わずにターゲット・ドメインに転送できる。
論文 参考訳(メタデータ) (2020-09-30T04:17:48Z) - Discriminative Cross-Domain Feature Learning for Partial Domain
Adaptation [70.45936509510528]
部分的なドメイン適応は、より大きく多様なソースドメインからの知識を、より少ないクラス数でより小さなターゲットドメインに適応させることを目的としています。
ドメイン適応の最近の実践は、ターゲットドメインの擬似ラベルを組み込むことで、効果的な特徴を抽出する。
ターゲットデータを少数のソースデータのみにアライメントすることが不可欠である。
論文 参考訳(メタデータ) (2020-08-26T03:18:53Z) - Multi-Source Domain Adaptation for Text Classification via
DistanceNet-Bandits [101.68525259222164]
本研究では,NLPタスクのコンテキストにおいて,サンプル推定に基づく領域間の相違を特徴付ける様々な距離ベース尺度について検討する。
タスクの損失関数と協調して最小化するために,これらの距離測度を付加的な損失関数として用いるディスタンスネットモデルを開発した。
マルチアーム・バンド・コントローラを用いて複数のソース・ドメインを動的に切り替えるDistanceNet-Banditモデルに拡張する。
論文 参考訳(メタデータ) (2020-01-13T15:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。