論文の概要: Domain Adversarial Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.07097v1
- Date: Sun, 14 Feb 2021 07:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:10:08.924230
- Title: Domain Adversarial Reinforcement Learning
- Title(参考訳): ドメイン・Adversarial Reinforcement Learning
- Authors: Bonnie Li, Vincent Fran\c{c}ois-Lavet, Thang Doan, Joelle Pineau
- Abstract要約: 我々は,観察の視覚的側面が異なる強化学習における一般化の問題を考える。
エージェントの性能は、MDP分布から引き出された新しい未知のテストドメインに報告される。
このアプローチは、新しい未確認領域への大幅な一般化の改善を可能にすることを実証的に示す。
- 参考スコア(独自算出の注目度): 37.21155002604856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of generalization in reinforcement learning where
visual aspects of the observations might differ, e.g. when there are different
backgrounds or change in contrast, brightness, etc. We assume that our agent
has access to only a few of the MDPs from the MDP distribution during training.
The performance of the agent is then reported on new unknown test domains drawn
from the distribution (e.g. unseen backgrounds). For this "zero-shot RL" task,
we enforce invariance of the learned representations to visual domains via a
domain adversarial optimization process. We empirically show that this approach
allows achieving a significant generalization improvement to new unseen
domains.
- Abstract(参考訳): 我々は、観察の視覚的側面が異なる強化学習における一般化の問題を考える。
異なる背景がある場合、またはコントラスト、明るさなどの変化がある場合。
我々のエージェントは、トレーニング中にMDP分布からわずか数個のMDPにしかアクセスできないと仮定する。
エージェントの性能は、分布から引き出された新しい未知のテストドメインに報告される(例)。
目立たない背景)。
この「ゼロショットRL」タスクでは、学習した表現をドメイン逆最適化プロセスを介して視覚領域に分散させる。
このアプローチは、新しい未確認領域への大幅な一般化の改善を可能にすることを実証的に示す。
関連論文リスト
- Gated Domain Units for Multi-source Domain Generalization [15.130726408598642]
我々はGDU(Gated Domain Units)で構成されるニューラルネットワーク層を開発する。
推測中、GDUは観測と対応する基本分布のそれぞれとの類似性を計算する。
Digits5,ECG,Camelyon17,iWildCam,FMoWに対する評価では,トレーニング対象ドメインの性能が大幅に向上した。
論文 参考訳(メタデータ) (2022-06-24T18:12:38Z) - Unsupervised Domain Generalization by Learning a Bridge Across Domains [78.855606355957]
Unsupervised Domain Generalization (UDG) のセットアップでは、ソースもターゲットドメインもトレーニングの監督は行わない。
本手法は,各トレーニング領域からBrADへの視覚的(イメージ間)マッピングを保存したセマンティクスのセットを伴って,補助的なブリッジドメインであるBrAD(Bridge Across Domains)の自己教師型学習に基づいている。
我々は,エッジレギュラー化したBrADを用いて,UDG,Few-shot UDA,マルチドメインデータセット間の教師なし一般化など,複数のベンチマークやタスクにまたがる大幅な向上を実現する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T10:25:45Z) - On Learning Domain-Invariant Representations for Transfer Learning with
Multiple Sources [21.06231751703114]
対象の一般損失に対する新たな上限を開発し、2種類のドメイン不変表現を定義した。
我々は、各ドメイン不変表現の学習を強制することの利点と欠点、およびトレードオフについて研究する。
論文 参考訳(メタデータ) (2021-11-27T06:14:28Z) - Fishr: Invariant Gradient Variances for Out-of-distribution
Generalization [98.40583494166314]
フィッシャーは、損失関数の勾配の空間における領域不変性を強制する学習スキームである。
フィッシャーはこの損失についてフィッシャー・インフォメーションやヘッセンと密接な関係を示している。
特に、FishrはDomainBedベンチマークのテクニックの状態を改善し、経験的リスク最小化よりも大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-09-07T08:36:09Z) - Improving Transferability of Domain Adaptation Networks Through Domain
Alignment Layers [1.3766148734487902]
マルチソースアン教師付きドメイン適応(MSDA)は、ソースモデルの袋から弱い知識を割り当てることで、ラベルのないドメインの予測子を学習することを目的としている。
我々は,DomaIn Alignment Layers (MS-DIAL) のマルチソースバージョンを予測器の異なるレベルに埋め込むことを提案する。
我々の手法は最先端のMSDA法を改善することができ、分類精度の相対利得は+30.64%に達する。
論文 参考訳(メタデータ) (2021-09-06T18:41:19Z) - Domain Generalization via Gradient Surgery [5.38147998080533]
現実のアプリケーションでは、マシンラーニングモデルは、トレーニングとテストドメイン間のデータ分散の変化があるシナリオに直面します。
本研究では,ドメインシフトのシナリオに現れる矛盾する勾配を特徴付けるとともに,新たな勾配合意戦略を考案する。
論文 参考訳(メタデータ) (2021-08-03T16:49:25Z) - Respecting Domain Relations: Hypothesis Invariance for Domain
Generalization [30.14312814723027]
ドメインの一般化では、トレーニング中に複数のラベル付き非独立および非独立に分散されたソースドメインが利用可能である。
現在、いわゆるドメイン不変表現(DIR)を学ぶことは、ドメインの一般化に対する一般的なアプローチである。
論文 参考訳(メタデータ) (2020-10-15T08:26:08Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Cross-domain Face Presentation Attack Detection via Multi-domain
Disentangled Representation Learning [109.42987031347582]
顔提示攻撃検出(PAD)は,顔認識システムにおいて緊急に解決すべき課題である。
クロスドメイン顔PADのための効率的な非交叉表現学習を提案する。
我々のアプローチは、不整合表現学習(DR-Net)とマルチドメイン学習(MD-Net)からなる。
論文 参考訳(メタデータ) (2020-04-04T15:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。