論文の概要: Domain Adversarial Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.07097v1
- Date: Sun, 14 Feb 2021 07:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:10:08.924230
- Title: Domain Adversarial Reinforcement Learning
- Title(参考訳): ドメイン・Adversarial Reinforcement Learning
- Authors: Bonnie Li, Vincent Fran\c{c}ois-Lavet, Thang Doan, Joelle Pineau
- Abstract要約: 我々は,観察の視覚的側面が異なる強化学習における一般化の問題を考える。
エージェントの性能は、MDP分布から引き出された新しい未知のテストドメインに報告される。
このアプローチは、新しい未確認領域への大幅な一般化の改善を可能にすることを実証的に示す。
- 参考スコア(独自算出の注目度): 37.21155002604856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of generalization in reinforcement learning where
visual aspects of the observations might differ, e.g. when there are different
backgrounds or change in contrast, brightness, etc. We assume that our agent
has access to only a few of the MDPs from the MDP distribution during training.
The performance of the agent is then reported on new unknown test domains drawn
from the distribution (e.g. unseen backgrounds). For this "zero-shot RL" task,
we enforce invariance of the learned representations to visual domains via a
domain adversarial optimization process. We empirically show that this approach
allows achieving a significant generalization improvement to new unseen
domains.
- Abstract(参考訳): 我々は、観察の視覚的側面が異なる強化学習における一般化の問題を考える。
異なる背景がある場合、またはコントラスト、明るさなどの変化がある場合。
我々のエージェントは、トレーニング中にMDP分布からわずか数個のMDPにしかアクセスできないと仮定する。
エージェントの性能は、分布から引き出された新しい未知のテストドメインに報告される(例)。
目立たない背景)。
この「ゼロショットRL」タスクでは、学習した表現をドメイン逆最適化プロセスを介して視覚領域に分散させる。
このアプローチは、新しい未確認領域への大幅な一般化の改善を可能にすることを実証的に示す。
関連論文リスト
- Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Invariance is Key to Generalization: Examining the Role of
Representation in Sim-to-Real Transfer for Visual Navigation [35.01394611106655]
一般化の鍵は、すべてのタスク関連情報をキャプチャするのに十分なリッチな表現である。
このような視覚ナビゲーションの表現を実験的に研究する。
我々の表現は、トレーニングドメインとテストドメイン間のA距離を減少させる。
論文 参考訳(メタデータ) (2023-10-23T15:15:19Z) - Gated Domain Units for Multi-source Domain Generalization [14.643490853965385]
分散シフト(DS)は、テスト時のデータセットとトレーニング時のデータセットが異なる場合に発生する。
GDU(Gated Domain Units)で構成されるモジュール型ニューラルネットワークレイヤを導入し,各潜伏する基本分布の表現を学習する。
推論中、各基本分布の表現と新しい観測結果を比較することで、重み付けされた学習機械のアンサンブルを作成することができる。
論文 参考訳(メタデータ) (2022-06-24T18:12:38Z) - Unsupervised Domain Generalization by Learning a Bridge Across Domains [78.855606355957]
Unsupervised Domain Generalization (UDG) のセットアップでは、ソースもターゲットドメインもトレーニングの監督は行わない。
本手法は,各トレーニング領域からBrADへの視覚的(イメージ間)マッピングを保存したセマンティクスのセットを伴って,補助的なブリッジドメインであるBrAD(Bridge Across Domains)の自己教師型学習に基づいている。
我々は,エッジレギュラー化したBrADを用いて,UDG,Few-shot UDA,マルチドメインデータセット間の教師なし一般化など,複数のベンチマークやタスクにまたがる大幅な向上を実現する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T10:25:45Z) - On Learning Domain-Invariant Representations for Transfer Learning with
Multiple Sources [21.06231751703114]
対象の一般損失に対する新たな上限を開発し、2種類のドメイン不変表現を定義した。
我々は、各ドメイン不変表現の学習を強制することの利点と欠点、およびトレードオフについて研究する。
論文 参考訳(メタデータ) (2021-11-27T06:14:28Z) - Fishr: Invariant Gradient Variances for Out-of-distribution
Generalization [98.40583494166314]
フィッシャーは、損失関数の勾配の空間における領域不変性を強制する学習スキームである。
フィッシャーはこの損失についてフィッシャー・インフォメーションやヘッセンと密接な関係を示している。
特に、FishrはDomainBedベンチマークのテクニックの状態を改善し、経験的リスク最小化よりも大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-09-07T08:36:09Z) - Improving Transferability of Domain Adaptation Networks Through Domain
Alignment Layers [1.3766148734487902]
マルチソースアン教師付きドメイン適応(MSDA)は、ソースモデルの袋から弱い知識を割り当てることで、ラベルのないドメインの予測子を学習することを目的としている。
我々は,DomaIn Alignment Layers (MS-DIAL) のマルチソースバージョンを予測器の異なるレベルに埋め込むことを提案する。
我々の手法は最先端のMSDA法を改善することができ、分類精度の相対利得は+30.64%に達する。
論文 参考訳(メタデータ) (2021-09-06T18:41:19Z) - Domain Generalization via Gradient Surgery [5.38147998080533]
現実のアプリケーションでは、マシンラーニングモデルは、トレーニングとテストドメイン間のデータ分散の変化があるシナリオに直面します。
本研究では,ドメインシフトのシナリオに現れる矛盾する勾配を特徴付けるとともに,新たな勾配合意戦略を考案する。
論文 参考訳(メタデータ) (2021-08-03T16:49:25Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。