論文の概要: Transfer Reinforcement Learning for Differing Action Spaces via
Q-Network Representations
- arxiv url: http://arxiv.org/abs/2202.02442v1
- Date: Sat, 5 Feb 2022 00:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-13 17:25:04.763505
- Title: Transfer Reinforcement Learning for Differing Action Spaces via
Q-Network Representations
- Title(参考訳): Q-Network表現を用いた行動空間の伝達強化学習
- Authors: Nathan Beck, Abhiramon Rajasekharan, Trung Hieu Tran
- Abstract要約: 本稿では、離散的かつ連続的なアクション空間を持つ領域に適用可能な、ソース埋め込み類似性に基づく報酬形成手法を提案する。
提案手法の有効性は,Acrobot-v1ドメインとPendulum-v0ドメインの制限された動作空間への移動によって評価される。
- 参考スコア(独自算出の注目度): 2.0625936401496237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning approaches in reinforcement learning aim to assist agents
in learning their target domains by leveraging the knowledge learned from other
agents that have been trained on similar source domains. For example, recent
research focus within this space has been placed on knowledge transfer between
tasks that have different transition dynamics and reward functions; however,
little focus has been placed on knowledge transfer between tasks that have
different action spaces. In this paper, we approach the task of transfer
learning between domains that differ in action spaces. We present a reward
shaping method based on source embedding similarity that is applicable to
domains with both discrete and continuous action spaces. The efficacy of our
approach is evaluated on transfer to restricted action spaces in the Acrobot-v1
and Pendulum-v0 domains (Brockman et al. 2016). A comparison with two baselines
shows that our method does not outperform these baselines in these continuous
action spaces but does show an improvement in these discrete action spaces. We
conclude our analysis with future directions for this work.
- Abstract(参考訳): 強化学習における伝達学習のアプローチは、類似のソースドメインで訓練された他のエージェントから学んだ知識を活用することで、ターゲットドメインを学習するエージェントを支援することを目的としている。
例えば、この分野における最近の研究は、トランジッションダイナミクスと報酬関数が異なるタスク間の知識転送に置かれているが、異なるアクション空間を持つタスク間の知識転送にはほとんど焦点が当てられていない。
本稿では,行動空間が異なる領域間での伝達学習の課題にアプローチする。
本稿では,離散空間と連続作用空間の両方を持つ領域に適用可能なソース埋め込み類似性に基づく報酬整形法を提案する。
本手法の有効性はacrobot-v1ドメインとpendulum-v0ドメイン(brockman et al. 2016)の制限された動作空間への移動において評価される。
2つのベースラインとの比較により、本手法は、これらの連続的なアクション空間においてこれらのベースラインを上回らないが、これらの離散的なアクション空間の改善を示す。
我々はこの研究の今後の方向性で分析を終える。
関連論文リスト
- Cross Domain Policy Transfer with Effect Cycle-Consistency [3.3213136251955815]
深層強化学習法を用いてスクラッチからロボットポリシーを訓練することは、サンプルの非効率性のために違法にコストがかかる可能性がある。
本研究では、未ペアデータを用いてドメイン間の状態空間と行動空間間のマッピング関数を学習するための新しい手法を提案する。
我々のアプローチは3つの移動タスクと2つのロボット操作タスクでテストされている。
論文 参考訳(メタデータ) (2024-03-04T13:20:07Z) - A Recent Survey of Heterogeneous Transfer Learning [15.830786437956144]
異種移動学習は 様々なタスクにおいて 重要な戦略となっている。
データベースとモデルベースの両方のアプローチを網羅した60以上のHTLメソッドの広範なレビューを提供する。
自然言語処理,コンピュータビジョン,マルチモーダル学習,バイオメディシンの応用について検討する。
論文 参考訳(メタデータ) (2023-10-12T16:19:58Z) - From Patches to Objects: Exploiting Spatial Reasoning for Better Visual
Representations [2.363388546004777]
本研究では,空間的推論に基づく新しい予備的事前学習手法を提案する。
本提案手法は,識別的自己管理手法の補助的タスクとして空間推論を導入することで,より柔軟なコントラスト学習の定式化を実現する。
論文 参考訳(メタデータ) (2023-05-21T07:46:46Z) - Meta-causal Learning for Single Domain Generalization [102.53303707563612]
単一ドメインの一般化は、単一のトレーニングドメイン(ソースドメイン)からモデルを学び、それを複数の未確認テストドメイン(ターゲットドメイン)に適用することを目的としている。
既存の方法は、ターゲットドメインをカバーするためのトレーニングドメインの配布拡大に重点を置いているが、ソースとターゲットドメイン間のドメインシフトを見積もることはできない。
そこで本研究では,まず,対象ドメインとして補助ドメインを構築することによってドメインシフトをシミュレートし,ドメインシフトの原因を解析し,最終的にモデル適応のためのドメインシフトを低減する,新たな学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-07T15:46:38Z) - Transfer RL via the Undo Maps Formalism [29.798971172941627]
ドメイン間で知識を伝達することは、機械学習における最も基本的な問題の1つである。
本稿では,対話型ドメイン間で知識を伝達するフレームワークTvDを提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
論文 参考訳(メタデータ) (2022-11-26T03:44:28Z) - Learn what matters: cross-domain imitation learning with task-relevant
embeddings [77.34726150561087]
自律エージェントが、異なる環境や異なるエージェントなど、異なる領域のデモンストレーションからタスクを実行することを学習する方法について検討する。
我々は、追加のデモンストレーションやさらなるドメイン知識にアクセスすることなく、クロスドメインの模倣学習を可能にするスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T21:56:58Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Disentangling Transfer and Interference in Multi-Domain Learning [53.34444188552444]
マルチドメイン学習において,干渉や知識伝達が発生する状況について検討する。
干渉と転送を分離する新しいメトリクスを提案し、実験プロトコルをセットアップする。
我々は、CIFAR-100、MiniPlaces、Tiny-ImageNetデータセットでこの結果を示す。
論文 参考訳(メタデータ) (2021-07-02T01:30:36Z) - Cross-domain Imitation from Observations [50.669343548588294]
模擬学習は、専門家の行動を利用して訓練エージェントに適切な報酬関数を設計することの難しさを回避しようとする。
本稿では,専門家とエージェントMDPの相違点が存在する場合に,タスクを模倣する方法の問題について検討する。
このようなドメイン間の対応を学習するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-20T21:08:25Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。