論文の概要: Transfer RL via the Undo Maps Formalism
- arxiv url: http://arxiv.org/abs/2211.14469v1
- Date: Sat, 26 Nov 2022 03:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:38:01.621901
- Title: Transfer RL via the Undo Maps Formalism
- Title(参考訳): Undo Maps形式によるRLの転送
- Authors: Abhi Gupta, Ted Moskovitz, David Alvarez-Melis, Aldo Pacchiano
- Abstract要約: ドメイン間で知識を伝達することは、機械学習における最も基本的な問題の1つである。
本稿では,対話型ドメイン間で知識を伝達するフレームワークTvDを提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
- 参考スコア(独自算出の注目度): 29.798971172941627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferring knowledge across domains is one of the most fundamental problems
in machine learning, but doing so effectively in the context of reinforcement
learning remains largely an open problem. Current methods make strong
assumptions on the specifics of the task, often lack principled objectives, and
-- crucially -- modify individual policies, which might be sub-optimal when the
domains differ due to a drift in the state space, i.e., it is intrinsic to the
environment and therefore affects every agent interacting with it. To address
these drawbacks, we propose TvD: transfer via distribution matching, a
framework to transfer knowledge across interactive domains. We approach the
problem from a data-centric perspective, characterizing the discrepancy in
environments by means of (potentially complex) transformation between their
state spaces, and thus posing the problem of transfer as learning to undo this
transformation. To accomplish this, we introduce a novel optimization objective
based on an optimal transport distance between two distributions over
trajectories -- those generated by an already-learned policy in the source
domain and a learnable pushforward policy in the target domain. We show this
objective leads to a policy update scheme reminiscent of imitation learning,
and derive an efficient algorithm to implement it. Our experiments in simple
gridworlds show that this method yields successful transfer learning across a
wide range of environment transformations.
- Abstract(参考訳): ドメイン間で知識を伝達することは機械学習の最も基本的な問題であるが、強化学習の文脈で効果的に行うことは、主にオープンな問題である。
現在の手法では、タスクの具体性に強い仮定をしており、しばしば原則的な目的を欠いており、重要な点として、状態空間のドリフトによってドメインが異なる場合、すなわち、環境に固有のものであり、それと相互作用するすべてのエージェントに影響するような、個々のポリシーを変更する。
これらの欠点に対処するため,対話型ドメイン間で知識を伝達するフレームワークである分散マッチングを用いたTvDを提案する。
データ中心の観点からこの問題にアプローチし、状態空間間の(潜在的に複雑な)変換によって環境の不一致を特徴付け、この変換を解き放つための学習としての伝達の問題を提起する。
そこで本研究では,トラジェクタ上の2つの分布間の最適な移動距離 - ソース領域で既に学習済みのポリシーと対象領域で学習可能なプッシュフォワードポリシー - に基づく新しい最適化目標を提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
簡単なグリッドワールドにおける実験により、この手法は幅広い環境変換における伝達学習を成功させることを示した。
関連論文リスト
- xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing [21.37585797507323]
ドメイン間政策伝達手法は主に、ポリシー学習を容易にするために、ドメインの対応や修正を学習することを目的としている。
本稿では,クロスドメイントラジェクトリ適応のために特別に設計された拡散モデルを用いたクロスドメイントラジェクトリ・EDitingフレームワークを提案する。
提案するモデルアーキテクチャは,対象データ内の動的パターンだけでなく,状態,行動,報酬間の複雑な依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-13T10:07:28Z) - Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Cross Domain Policy Transfer with Effect Cycle-Consistency [3.3213136251955815]
深層強化学習法を用いてスクラッチからロボットポリシーを訓練することは、サンプルの非効率性のために違法にコストがかかる可能性がある。
本研究では、未ペアデータを用いてドメイン間の状態空間と行動空間間のマッピング関数を学習するための新しい手法を提案する。
我々のアプローチは3つの移動タスクと2つのロボット操作タスクでテストされている。
論文 参考訳(メタデータ) (2024-03-04T13:20:07Z) - A Framework for Few-Shot Policy Transfer through Observation Mapping and
Behavior Cloning [6.048526012097133]
本研究は,2つの領域間のFew-Shot Policy Transferを観察マッピングと振舞いのクローンによって実現するためのフレームワークを提案する。
我々は、GAN(Generative Adversarial Networks)とサイクル整合性損失を用いて、ソースとターゲットドメイン間の観測をマッピングし、その後、この学習されたマッピングを使用して、成功したソースタスクの動作ポリシーをターゲットドメインにクローンする。
論文 参考訳(メタデータ) (2023-10-13T03:15:42Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring
Network [58.05473757538834]
本稿では,ドメイン間のギャップを粗い粒度から細かな粒度に埋める新しい逆スコアリングネットワーク (ASNet) を提案する。
3組のマイグレーション実験により,提案手法が最先端のカウント性能を実現することを示す。
論文 参考訳(メタデータ) (2021-07-27T14:47:24Z) - Physically-Constrained Transfer Learning through Shared Abundance Space
for Hyperspectral Image Classification [14.840925517957258]
本稿では、ソースとターゲットドメイン間のギャップを埋める新しい転送学習手法を提案する。
提案手法は,共有空間を経由した物理制約付き移動学習と呼ばれる。
論文 参考訳(メタデータ) (2020-08-19T17:41:37Z) - An Imitation from Observation Approach to Transfer Learning with
Dynamics Mismatch [44.898655782896306]
本研究では,この移動問題に対する既存の解法として,観測からの模倣問題と密接に関連していることを示す。
我々は, 観測手法から, 対向的模倣に基づく新たなアルゴリズム, GARAT (Generative Adversarial reinforced action transformation) を導出する。
GARATで訓練されたエージェントは、既存のブラックボックス転送手法と比較して、ターゲット環境において高いリターンを達成する。
論文 参考訳(メタデータ) (2020-08-04T14:36:02Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Unsupervised Transfer Learning with Self-Supervised Remedy [60.315835711438936]
手動ラベルのない新しいドメインにディープネットワークを一般化することは、ディープラーニングにとって難しい。
事前学習された知識は、学習されたドメインや新しいドメインについて強い仮定をしなければ、うまく伝達しない。
本研究は,ラベル付き関連ドメインからの知識伝達により,新規ドメインにおける未ラベル対象データの識別潜在空間を学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-08T16:42:17Z) - Continuous Domain Adaptation with Variational Domain-Agnostic Feature
Replay [78.7472257594881]
非定常環境での学習は、機械学習における最大の課題の1つだ。
非定常性はタスクドリフトまたはドメインドリフトによって引き起こされる。
本稿では,3つのコンポーネントから構成されるアプローチである変分ドメインに依存しない特徴リプレイを提案する。
論文 参考訳(メタデータ) (2020-03-09T19:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。