論文の概要: Adapting the Behavior of Reinforcement Learning Agents to Changing Action Spaces and Reward Functions
- arxiv url: http://arxiv.org/abs/2601.20714v1
- Date: Wed, 28 Jan 2026 15:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.005255
- Title: Adapting the Behavior of Reinforcement Learning Agents to Changing Action Spaces and Reward Functions
- Title(参考訳): 強化学習エージェントの行動空間の変化とリワード機能への適応
- Authors: Raul de la Rosa, Ivana Dusparic, Nicolas Cardozo,
- Abstract要約: 強化学習(Reinforcement Learning, RL)エージェントは、環境条件が静止しない現実世界のアプリケーションでしばしば苦労する。
本稿では,自己適応型Q-ラーニングフレームワークであるMORPHINを紹介する。
- 参考スコア(独自算出の注目度): 1.2922946578413577
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement Learning (RL) agents often struggle in real-world applications where environmental conditions are non-stationary, particularly when reward functions shift or the available action space expands. This paper introduces MORPHIN, a self-adaptive Q-learning framework that enables on-the-fly adaptation without full retraining. By integrating concept drift detection with dynamic adjustments to learning and exploration hyperparameters, MORPHIN adapts agents to changes in both the reward function and on-the-fly expansions of the agent's action space, while preserving prior policy knowledge to prevent catastrophic forgetting. We validate our approach using a Gridworld benchmark and a traffic signal control simulation. The results demonstrate that MORPHIN achieves superior convergence speed and continuous adaptation compared to a standard Q-learning baseline, improving learning efficiency by up to 1.7x.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)エージェントは、特に報酬関数がシフトしたり、利用可能なアクション空間が拡大した場合、環境条件が静止していない現実世界のアプリケーションでしばしば苦労する。
本稿では,自己適応型Q-ラーニングフレームワークであるMORPHINを紹介する。
MORPHINは、概念ドリフト検出と、学習と探索のハイパーパラメーターに対する動的調整を統合することで、エージェントの報酬関数とエージェントの行動空間のオンザフライ展開の両方の変化に、エージェントを適応させ、破滅的な忘れを防止するために、事前のポリシー知識を保存する。
我々は、Gridworldベンチマークと信号制御シミュレーションを用いて、我々のアプローチを検証する。
その結果、MORPHINは標準のQ-ラーニングベースラインに比べて収束速度と継続的適応性が優れ、学習効率が最大1.7倍向上することを示した。
関連論文リスト
- Scaling Agent Learning via Experience Synthesis [100.42712232390532]
強化学習は、対話を通じて自己改善を行うことで、自律的なエージェントに力を与えることができる。
しかし、コストのかかるロールアウト、タスクの多様性の制限、信頼性の低い報奨信号、インフラストラクチャの複雑さによって、その実践的採用は依然として困難である。
私たちはDreamGymを紹介します。DreamGymはスケーラビリティを念頭において多様なエクスペリエンスを合成するために設計された最初の統合フレームワークです。
論文 参考訳(メタデータ) (2025-11-05T18:58:48Z) - Real-Time Gait Adaptation for Quadrupeds using Model Predictive Control and Reinforcement Learning [2.5845893156827158]
連続歩行空間におけるリアルタイム歩行適応のための最適化フレームワークを提案する。
モデル予測パス積分(MPPI)アルゴリズムとDreamerモジュールを組み合わせることで、四足歩行に対する適応的かつ最適なポリシーを生成する。
我々は,Unitree Go1上でのシミュレーションの枠組みを評価し,目標速度の異なるエネルギー消費の最大36.48%の削減を実証した。
論文 参考訳(メタデータ) (2025-10-23T16:17:45Z) - Flexible Locomotion Learning with Diffusion Model Predictive Control [46.432397190673505]
本稿では,学習した生成拡散モデルを計画に先立って近似力学として活用する拡散MPCを提案する。
我々の設計では、テスト時適応性が強く、プランナーは、再訓練することなく、新しい報酬仕様に調整できる。
我々はDiffusion-MPCを実世界で検証し、強い移動と柔軟な適応を示す。
論文 参考訳(メタデータ) (2025-10-05T14:51:13Z) - World Models as Reference Trajectories for Rapid Motor Adaptation [0.0]
リフレクティブ・ワールド・モデル(Reflexive World Models、RWM)は、世界モデル予測を暗黙の基準軌跡として使用し、迅速な適応を行うための二重制御フレームワークである。
本手法は、強化学習とロバストモータ実行により、制御問題を長期報酬に分離する。
論文 参考訳(メタデータ) (2025-05-21T14:46:41Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Sim-Anchored Learning for On-the-Fly Adaptation [45.123633153460034]
実世界のデータを持つ微調整シミュレーション訓練されたRLエージェントは、制限されたデータ分布や歪んだデータ分布のために重要な振る舞いを劣化させることが多い。
シミュレーションと現実の両方において政策目標を満たさなければならない多目的最適化問題として、フレーミングライブ適応を提案する。
論文 参考訳(メタデータ) (2023-01-17T16:16:53Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。