論文の概要: Unified State Representation Learning under Data Augmentation
- arxiv url: http://arxiv.org/abs/2209.05302v1
- Date: Mon, 12 Sep 2022 15:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:25:37.758327
- Title: Unified State Representation Learning under Data Augmentation
- Title(参考訳): データ拡張による統一状態表現学習
- Authors: Taylor Hearn, Sravan Jayanthi, Sehoon Ha
- Abstract要約: 強化学習エージェントの一般化は実世界での成功に不可欠である。
データ拡張に基づく統一状態表現学習(USRA: Unified State Representation Learning)を提案する。
その結果,USRAはサンプル効率が向上し,ドメイン適応性能が14.3%向上することがわかった。
- 参考スコア(独自算出の注目度): 8.904143080467348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The capacity for rapid domain adaptation is important to increasing the
applicability of reinforcement learning (RL) to real world problems.
Generalization of RL agents is critical to success in the real world, yet
zero-shot policy transfer is a challenging problem since even minor visual
changes could make the trained agent completely fail in the new task. We
propose USRA: Unified State Representation Learning under Data Augmentation, a
representation learning framework that learns a latent unified state
representation by performing data augmentations on its observations to improve
its ability to generalize to unseen target domains. We showcase the success of
our approach on the DeepMind Control Generalization Benchmark for the Walker
environment and find that USRA achieves higher sample efficiency and 14.3%
better domain adaptation performance compared to the best baseline results.
- Abstract(参考訳): 迅速なドメイン適応能力は、現実世界の問題に対する強化学習(rl)の適用性を高めるために重要である。
RLエージェントの一般化は実世界での成功に不可欠であるが、訓練されたエージェントが新しいタスクで完全に失敗する可能性があるため、ゼロショットポリシー転送は難しい問題である。
我々は,usra:unified state representation learning under data augmentationを提案する。このフレームワークは,観測に基づいてデータ拡張を行うことで,潜在統一状態表現を学習し,対象領域に一般化する能力を向上させる。
本稿では,DeepMind Control Generalization Benchmark for the Walker環境におけるアプローチの成功例を紹介するとともに,USRAがサンプル効率の向上とドメイン適応性能の14.3%向上を実現していることを示す。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Invariance is Key to Generalization: Examining the Role of
Representation in Sim-to-Real Transfer for Visual Navigation [35.01394611106655]
一般化の鍵は、すべてのタスク関連情報をキャプチャするのに十分なリッチな表現である。
このような視覚ナビゲーションの表現を実験的に研究する。
我々の表現は、トレーニングドメインとテストドメイン間のA距離を減少させる。
論文 参考訳(メタデータ) (2023-10-23T15:15:19Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - CROP: Towards Distributional-Shift Robust Reinforcement Learning using
Compact Reshaped Observation Processing [8.569762036154799]
一般化のための最近のアプローチは、トレーニングデータの多様性を高めるためにデータ拡張技術を適用している。
重要な情報のみを含む適切な観察を行うことは、それ自体が困難な作業であることが示されている。
政策最適化に使用する状態情報を削減するために,CROP(Compact Reshaped Observation Processing)を提案する。
論文 参考訳(メタデータ) (2023-04-26T15:19:02Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - Unsupervised Domain Generalization for Person Re-identification: A
Domain-specific Adaptive Framework [50.88463458896428]
ドメイン一般化(DG)は近年,人物再同定(ReID)において注目されている。
既存のメソッドは通常、ソースドメインにラベルを付ける必要があります。
本稿では、単純で効率的なドメイン固有適応化フレームワークを提案し、適応正規化モジュールで実現する。
論文 参考訳(メタデータ) (2021-11-30T02:35:51Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Generalization of Reinforcement Learning with Policy-Aware Adversarial
Data Augmentation [32.70482982044965]
本稿では,自動生成軌道データによる標準方針学習手法の強化を目的とした,新たなポリシー対応逆データ拡張手法を提案する。
提案手法の一般化性能を検討するために, 多数のRLタスクについて実験を行った。
その結果,本手法は訓練の多様性に限界があり,最先端の一般化テスト性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2021-06-29T17:21:59Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Domain Adaptation In Reinforcement Learning Via Latent Unified State
Representation [1.435381256004719]
第1段階では複数のドメイン間で整合性を持つ潜在統一状態表現(LUSR)を学習し,第2段階ではLUSRに基づいて1つのソースドメインでRLトレーニングを行う2段階RLエージェントを提案する。
LUSRのクロスドメイン一貫性により、ソースドメインから取得したポリシーは、余分なトレーニングなしで他のターゲットドメインに一般化することができる。
提案手法は,RLタスクにおける最先端のドメイン適応性能を実現し,潜在表現に基づくRLとイメージ・ツー・イメージの変換に基づく先行手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-10T19:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。