論文の概要: AbideGym: Turning Static RL Worlds into Adaptive Challenges
- arxiv url: http://arxiv.org/abs/2509.21234v1
- Date: Thu, 25 Sep 2025 14:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.983261
- Title: AbideGym: Turning Static RL Worlds into Adaptive Challenges
- Title(参考訳): AbideGym: 静的RLワールドを適応的な課題に変える
- Authors: Abi Aryan, Zac Liu, Aaron Childress,
- Abstract要約: AbideGymは動的MiniGridラッパーで、エージェント対応の摂動と拡張性のある複雑さを導入し、エピソード内適応を強制する。
静的ポリシーの弱点を明らかにし、レジリエンスを促進することで、AbideGymはカリキュラム学習、継続的な学習、堅牢な一般化の研究を進めるためのモジュラーで再現可能な評価フレームワークを提供する。
- 参考スコア(独自算出の注目度): 0.07646713951724009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents trained with reinforcement learning often develop brittle policies that fail when dynamics shift, a problem amplified by static benchmarks. AbideGym, a dynamic MiniGrid wrapper, introduces agent-aware perturbations and scalable complexity to enforce intra-episode adaptation. By exposing weaknesses in static policies and promoting resilience, AbideGym provides a modular, reproducible evaluation framework for advancing research in curriculum learning, continual learning, and robust generalization.
- Abstract(参考訳): 強化学習で訓練されたエージェントは、静的ベンチマークによって増幅された問題である動的シフト時に失敗する脆いポリシーを開発することが多い。
動的MiniGridラッパーであるAbideGymは、エージェント対応の摂動と拡張性のある複雑さを導入し、エポソード内適応を強制する。
静的ポリシーの弱点を明らかにし、レジリエンスを促進することで、AbideGymはカリキュラム学習、継続的な学習、堅牢な一般化の研究を進めるためのモジュラーで再現可能な評価フレームワークを提供する。
関連論文リスト
- Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Maximum Total Correlation Reinforcement Learning [23.209609715886454]
誘導軌道内の全相関を最大化する強化学習問題を修正した。
シミュレーションロボット環境において,本手法は周期的かつ圧縮的な軌道を誘導するポリシーを自然に生成する。
論文 参考訳(メタデータ) (2025-05-22T14:48:00Z) - Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。
目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。
ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:00:16Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Solving robust MDPs as a sequence of static RL problems [28.754994235893268]
我々はIWOCSと呼ばれるメタアルゴリズムを導入し、最悪の遷移モデルを段階的に同定する。
我々は、IWOCSの深いRLバージョンを導き、古典的なベンチマークで最先端のアルゴリズムと競合することを示した。
論文 参考訳(メタデータ) (2024-10-08T17:16:24Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [115.79349923044663]
FSCIL(Few-shot class-incremental Learning)は、限られた例から新しいクラスを段階的に学習することを目的としている。
静的アーキテクチャは固定パラメータ空間に依存して、逐次到着するデータから学習し、現在のセッションに過度に適合する傾向がある。
本研究では,FSCILにおける選択状態空間モデル(SSM)の可能性について検討する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Online Nonstochastic Model-Free Reinforcement Learning [35.377261344335736]
本研究では,動的あるいは敵対的な環境に対するロバストモデルロバスト性保証について検討する。
これらのポリシーを最適化するための効率的かつ効率的なアルゴリズムを提供する。
これらは状態空間に依存せず、状態空間に依存しない最もよく知られた発展である。
論文 参考訳(メタデータ) (2023-05-27T19:02:55Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robustifying Reinforcement Learning Policies with $\mathcal{L}_1$
Adaptive Control [7.025818894763949]
強化学習(RL)ポリシーは、動的変動が存在するため、新しい/摂動環境において失敗する可能性がある。
本稿では, 適応制御を$mathcalL_1$で行うことで, 事前学習した非ロバストRLポリシーを堅牢化する手法を提案する。
提案手法は,シミュレータでも実世界でも,標準(非ロバスト)方式で訓練されたRLポリシーのロバスト性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T04:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。