論文の概要: Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers
- arxiv url: http://arxiv.org/abs/2006.13916v2
- Date: Wed, 14 Apr 2021 23:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:06:22.647196
- Title: Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers
- Title(参考訳): オフダイナミックス強化学習:ドメイン分類器を用いた伝達訓練
- Authors: Benjamin Eysenbach, Swapnil Asawa, Shreyas Chaudhari, Sergey Levine,
Ruslan Salakhutdinov
- Abstract要約: 強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
- 参考スコア(独自算出の注目度): 138.68213707587822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a simple, practical, and intuitive approach for domain adaptation
in reinforcement learning. Our approach stems from the idea that the agent's
experience in the source domain should look similar to its experience in the
target domain. Building off of a probabilistic view of RL, we formally show
that we can achieve this goal by compensating for the difference in dynamics by
modifying the reward function. This modified reward function is simple to
estimate by learning auxiliary classifiers that distinguish source-domain
transitions from target-domain transitions. Intuitively, the modified reward
function penalizes the agent for visiting states and taking actions in the
source domain which are not possible in the target domain. Said another way,
the agent is penalized for transitions that would indicate that the agent is
interacting with the source domain, rather than the target domain. Our approach
is applicable to domains with continuous states and actions and does not
require learning an explicit model of the dynamics. On discrete and continuous
control tasks, we illustrate the mechanics of our approach and demonstrate its
scalability to high-dimensional tasks.
- Abstract(参考訳): 強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
我々のアプローチは、ソースドメインにおけるエージェントの経験は、ターゲットドメインにおけるその経験と似ているべきであるという考えから来ています。
rlの確率的視点に基づいて,報奨関数の変更によるダイナミクスの違いを補償することにより,この目標を達成できることを正式に示した。
この修正報酬関数は、ソースドメイン遷移とターゲットドメイン遷移を区別する補助的分類器を学習することで、簡単に推定できる。
直感的には、修正された報酬関数は、ターゲットドメインでは不可能なソースドメインにおいて、訪問状態やアクションを取るためのエージェントを罰する。
別の言い方をすれば、エージェントがターゲットドメインではなくソースドメインと相互作用していることを示す遷移に対してペナルティが課される。
このアプローチは連続状態とアクションを持つドメインに適用でき、ダイナミクスの明示的なモデルを学ぶ必要はない。
離散的かつ連続的な制御タスクでは、我々のアプローチの力学を説明し、その高次元タスクに対するスケーラビリティを実証する。
関連論文リスト
- xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing [21.37585797507323]
ドメイン間政策伝達手法は主に、ポリシー学習を容易にするために、ドメインの対応や修正を学習することを目的としている。
本稿では,クロスドメイントラジェクトリ適応のために特別に設計された拡散モデルを用いたクロスドメイントラジェクトリ・EDitingフレームワークを提案する。
提案するモデルアーキテクチャは,対象データ内の動的パターンだけでなく,状態,行動,報酬間の複雑な依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-13T10:07:28Z) - Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Phrase Grounding-based Style Transfer for Single-Domain Generalized
Object Detection [109.58348694132091]
単一ドメインの一般化オブジェクト検出は、複数の未確認対象ドメインに対するモデルの一般化性を高めることを目的としている。
これは、ターゲットのドメインデータをトレーニングに組み込むことなく、ドメインシフトに対処するモデルを必要とするため、実用的だが難しいタスクである。
そこで我々は,課題に対する新しい文節接頭辞に基づくスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T10:48:43Z) - Meta-causal Learning for Single Domain Generalization [102.53303707563612]
単一ドメインの一般化は、単一のトレーニングドメイン(ソースドメイン)からモデルを学び、それを複数の未確認テストドメイン(ターゲットドメイン)に適用することを目的としている。
既存の方法は、ターゲットドメインをカバーするためのトレーニングドメインの配布拡大に重点を置いているが、ソースとターゲットドメイン間のドメインシフトを見積もることはできない。
そこで本研究では,まず,対象ドメインとして補助ドメインを構築することによってドメインシフトをシミュレートし,ドメインシフトの原因を解析し,最終的にモデル適応のためのドメインシフトを低減する,新たな学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-07T15:46:38Z) - Variational Transfer Learning using Cross-Domain Latent Modulation [1.9662978733004601]
本稿では,効率的な転送学習を実現するために,新しいドメイン間遅延変調機構を変分オートエンコーダフレームワークに導入する。
ソース領域とターゲット領域の深部表現は、まず統一推論モデルにより抽出され、勾配逆数を用いて整列される。
学習した深層表現は、一貫性の制約が適用される代替ドメインの潜在エンコーディングにクロスモデレートされる。
論文 参考訳(メタデータ) (2022-05-31T03:47:08Z) - Multilevel Knowledge Transfer for Cross-Domain Object Detection [26.105283273950942]
ドメインシフトは、特定のドメイン(ソース)でトレーニングされたモデルが、異なるドメイン(ターゲット)のサンプルに露出しても、うまく動作しない、よく知られた問題である。
本研究では,オブジェクト検出タスクにおける領域シフト問題に対処する。
私たちのアプローチは、ソースとターゲットドメイン間のドメインシフトを徐々に削除することに依存しています。
論文 参考訳(メタデータ) (2021-08-02T15:24:40Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z) - Interventional Domain Adaptation [81.0692660794765]
ドメイン適応(DA)は、ソースドメインからターゲットドメインに学習した差別的特徴を転送することを目的としている。
標準的なドメイン不変学習は、素早い相関に悩まされ、ソース固有性を誤って転送する。
ドメイン固有部分とドメイン共有部分とを区別する反ファクト機能を作成します。
論文 参考訳(メタデータ) (2020-11-07T09:53:13Z) - Contradistinguisher: A Vapnik's Imperative to Unsupervised Domain
Adaptation [7.538482310185133]
本研究では,コントラスト特徴を学習するContradistinguisherと呼ばれるモデルを提案する。
Office-31とVisDA-2017における最先端のデータセットを、シングルソースとマルチソースの両方で実現しています。
論文 参考訳(メタデータ) (2020-05-25T19:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。