論文の概要: Curricula for Learning Robust Policies with Factored State Representations in Changing Environments
- arxiv url: http://arxiv.org/abs/2409.09169v2
- Date: Thu, 19 Sep 2024 11:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-20 13:27:09.263846
- Title: Curricula for Learning Robust Policies with Factored State Representations in Changing Environments
- Title(参考訳): 環境変化を考慮したロバスト政策学習カリキュラム
- Authors: Panayiotis Panayiotou, Özgür Şimşek,
- Abstract要約: 因子状態表現を用いたエージェントのカリキュラムが学習方針の堅牢性にどのように影響するかを示す。
本報告では, ポリシーの堅牢性を著しく向上させる, エピソード間での最大後悔の変数のみを変動させるような, 3つの簡単なカリキュラムを実験的に実証する。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust policies enable reinforcement learning agents to effectively adapt to and operate in unpredictable, dynamic, and ever-changing real-world environments. Factored representations, which break down complex state and action spaces into distinct components, can improve generalization and sample efficiency in policy learning. In this paper, we explore how the curriculum of an agent using a factored state representation affects the robustness of the learned policy. We experimentally demonstrate three simple curricula, such as varying only the variable of highest regret between episodes, that can significantly enhance policy robustness, offering practical insights for reinforcement learning in complex environments.
- Abstract(参考訳): ロバストなポリシーにより、強化学習エージェントは予測不可能で動的で、常に変化する現実世界環境に効果的に適応し、運用することができる。
複雑な状態と行動空間を別々の構成要素に分解する因子表現は、政策学習における一般化とサンプル効率を改善することができる。
本稿では,因子状態表現を用いたエージェントのカリキュラムが学習方針の堅牢性にどのように影響するかを検討する。
複雑な環境下での強化学習のための実践的な洞察を提供することにより、政策の堅牢性を大幅に向上させることができるエピソード間の最大の後悔の変数だけの変化などの3つの簡単なカリキュラムを実験的に実証した。
関連論文リスト
- Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Open-Ended Diverse Solution Discovery with Regulated Behavior Patterns
for Cross-Domain Adaptation [5.090135391530077]
多様な行動特性を持つ政策は、様々な相違のある下流環境に一般化することができる。
このような方針は、現実世界のシステムのような現実的なシナリオにおける展開中に破滅的な被害をもたらす可能性がある。
本稿では,規制行動を用いた多彩な政策を訓練し,望ましいパターンを発見することを提案する。
論文 参考訳(メタデータ) (2022-09-24T15:13:51Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via
Distribution Matching [12.335788185691916]
逆強化学習(IRL)は、報酬工学が面倒なシナリオでは魅力的です。
以前のIRLアルゴリズムは、安定かつ最適なパフォーマンスのために現在のポリシーから集中的にサンプリングする必要があるオン・ポリティ転移を使用する。
我々は、オフ・ポリティ・逆強化学習(OPIRL)を紹介し、オフ・ポリティィ・データ配信をオン・ポリティィではなく、オフ・ポリティィ・データ配信を採用する。
論文 参考訳(メタデータ) (2021-09-09T14:32:26Z) - Adaptive Policy Transfer in Reinforcement Learning [9.594432031144715]
我々は,対象タスクの解法を学ぶために,ソースポリシーを適応させる「適応から学習」可能な原則的メカニズムを導入する。
提案手法は適応と探索から学習をシームレスに組み合わせることを学び、堅牢な政策伝達アルゴリズムに導くことを示した。
論文 参考訳(メタデータ) (2021-05-10T22:42:03Z) - ADAIL: Adaptive Adversarial Imitation Learning [11.270858993502705]
本稿では,動的に変化する環境間で伝達可能な適応型ポリシーを学習するための適応型適応型適応模倣学習(ADAIL)アルゴリズムを提案する。
これはロボット学習において重要な問題であり,1)報酬関数の取得が困難であること,2)ドメイン統計を対象とするさまざまなソースによる学習方針の展開が困難であること,3)動的に知られ制御される複数の環境における専門家によるデモンストレーションの収集が不可能であること,などが挙げられる。
論文 参考訳(メタデータ) (2020-08-23T06:11:00Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。