Fugu-MT 論文翻訳(概要): Domain Adversarial Reinforcement Learning

論文の概要: Domain Adversarial Reinforcement Learning

arxiv url: http://arxiv.org/abs/2102.07097v1
Date: Sun, 14 Feb 2021 07:58:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-16 16:10:08.924230
Title: Domain Adversarial Reinforcement Learning
Title（参考訳）: ドメイン・Adversarial Reinforcement Learning
Authors: Bonnie Li, Vincent Fran\c{c}ois-Lavet, Thang Doan, Joelle Pineau
Abstract要約: 我々は,観察の視覚的側面が異なる強化学習における一般化の問題を考える。エージェントの性能は、MDP分布から引き出された新しい未知のテストドメインに報告される。このアプローチは、新しい未確認領域への大幅な一般化の改善を可能にすることを実証的に示す。
参考スコア（独自算出の注目度）: 37.21155002604856
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of generalization in reinforcement learning where visual aspects of the observations might differ, e.g. when there are different backgrounds or change in contrast, brightness, etc. We assume that our agent has access to only a few of the MDPs from the MDP distribution during training. The performance of the agent is then reported on new unknown test domains drawn from the distribution (e.g. unseen backgrounds). For this "zero-shot RL" task, we enforce invariance of the learned representations to visual domains via a domain adversarial optimization process. We empirically show that this approach allows achieving a significant generalization improvement to new unseen domains.
Abstract（参考訳）: 我々は、観察の視覚的側面が異なる強化学習における一般化の問題を考える。異なる背景がある場合、またはコントラスト、明るさなどの変化がある場合。我々のエージェントは、トレーニング中にMDP分布からわずか数個のMDPにしかアクセスできないと仮定する。エージェントの性能は、分布から引き出された新しい未知のテストドメインに報告される(例)。目立たない背景)。この「ゼロショットRL」タスクでは、学習した表現をドメイン逆最適化プロセスを介して視覚領域に分散させる。このアプローチは、新しい未確認領域への大幅な一般化の改善を可能にすることを実証的に示す。

関連論文リスト

Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文参考訳（メタデータ） (2024-05-24T09:06:12Z)
Invariance is Key to Generalization: Examining the Role of Representation in Sim-to-Real Transfer for Visual Navigation [35.01394611106655]
一般化の鍵は、すべてのタスク関連情報をキャプチャするのに十分なリッチな表現である。このような視覚ナビゲーションの表現を実験的に研究する。我々の表現は、トレーニングドメインとテストドメイン間のA距離を減少させる。
論文参考訳（メタデータ） (2023-10-23T15:15:19Z)
Gated Domain Units for Multi-source Domain Generalization [14.643490853965385]
分散シフト(DS)は、テスト時のデータセットとトレーニング時のデータセットが異なる場合に発生する。 GDU(Gated Domain Units)で構成されるモジュール型ニューラルネットワークレイヤを導入し,各潜伏する基本分布の表現を学習する。推論中、各基本分布の表現と新しい観測結果を比較することで、重み付けされた学習機械のアンサンブルを作成することができる。
論文参考訳（メタデータ） (2022-06-24T18:12:38Z)
Unsupervised Domain Generalization by Learning a Bridge Across Domains [78.855606355957]
Unsupervised Domain Generalization (UDG) のセットアップでは、ソースもターゲットドメインもトレーニングの監督は行わない。本手法は,各トレーニング領域からBrADへの視覚的(イメージ間)マッピングを保存したセマンティクスのセットを伴って,補助的なブリッジドメインであるBrAD(Bridge Across Domains)の自己教師型学習に基づいている。我々は,エッジレギュラー化したBrADを用いて,UDG,Few-shot UDA,マルチドメインデータセット間の教師なし一般化など,複数のベンチマークやタスクにまたがる大幅な向上を実現する方法を示す。
論文参考訳（メタデータ） (2021-12-04T10:25:45Z)
On Learning Domain-Invariant Representations for Transfer Learning with Multiple Sources [21.06231751703114]
対象の一般損失に対する新たな上限を開発し、2種類のドメイン不変表現を定義した。我々は、各ドメイン不変表現の学習を強制することの利点と欠点、およびトレードオフについて研究する。
論文参考訳（メタデータ） (2021-11-27T06:14:28Z)
Fishr: Invariant Gradient Variances for Out-of-distribution Generalization [98.40583494166314]
フィッシャーは、損失関数の勾配の空間における領域不変性を強制する学習スキームである。フィッシャーはこの損失についてフィッシャー・インフォメーションやヘッセンと密接な関係を示している。特に、FishrはDomainBedベンチマークのテクニックの状態を改善し、経験的リスク最小化よりも大幅にパフォーマンスが向上する。
論文参考訳（メタデータ） (2021-09-07T08:36:09Z)
Improving Transferability of Domain Adaptation Networks Through Domain Alignment Layers [1.3766148734487902]
マルチソースアン教師付きドメイン適応(MSDA)は、ソースモデルの袋から弱い知識を割り当てることで、ラベルのないドメインの予測子を学習することを目的としている。我々は,DomaIn Alignment Layers (MS-DIAL) のマルチソースバージョンを予測器の異なるレベルに埋め込むことを提案する。我々の手法は最先端のMSDA法を改善することができ、分類精度の相対利得は+30.64%に達する。
論文参考訳（メタデータ） (2021-09-06T18:41:19Z)
Domain Generalization via Gradient Surgery [5.38147998080533]
現実のアプリケーションでは、マシンラーニングモデルは、トレーニングとテストドメイン間のデータ分散の変化があるシナリオに直面します。本研究では,ドメインシフトのシナリオに現れる矛盾する勾配を特徴付けるとともに,新たな勾配合意戦略を考案する。
論文参考訳（メタデータ） (2021-08-03T16:49:25Z)
Learning Invariant Representations and Risks for Semi-supervised Domain Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文参考訳（メタデータ） (2020-10-09T15:42:35Z)
Off-Dynamics Reinforcement Learning: Training for Transfer with Domain Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文参考訳（メタデータ） (2020-06-24T17:47:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。