論文の概要: MoRe-ERL: Learning Motion Residuals using Episodic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.01409v1
- Date: Sat, 02 Aug 2025 15:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.866372
- Title: MoRe-ERL: Learning Motion Residuals using Episodic Reinforcement Learning
- Title(参考訳): MoRe-ERL:エピソード強化学習を用いた動作残差学習
- Authors: Xi Huang, Hongyi Zhou, Ge Li, Yucheng Tang, Weiran Liao, Björn Hein, Tamim Asfour, Rudolf Lioutikov,
- Abstract要約: MoRe-ERLは、エピソード強化学習(ERL)と残留学習を組み合わせたフレームワークである。
MoRe-ERLは、重要なタスクに関連する操作を保存しながら、修正を必要とする軌道セグメントを特定する。
B-Splineベースの運動プリミティブを用いてスムーズな残留調整を生成する。
- 参考スコア(独自算出の注目度): 24.049065629193752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose MoRe-ERL, a framework that combines Episodic Reinforcement Learning (ERL) and residual learning, which refines preplanned reference trajectories into safe, feasible, and efficient task-specific trajectories. This framework is general enough to incorporate into arbitrary ERL methods and motion generators seamlessly. MoRe-ERL identifies trajectory segments requiring modification while preserving critical task-related maneuvers. Then it generates smooth residual adjustments using B-Spline-based movement primitives to ensure adaptability to dynamic task contexts and smoothness in trajectory refinement. Experimental results demonstrate that residual learning significantly outperforms training from scratch using ERL methods, achieving superior sample efficiency and task performance. Hardware evaluations further validate the framework, showing that policies trained in simulation can be directly deployed in real-world systems, exhibiting a minimal sim-to-real gap.
- Abstract(参考訳): 本稿では,ERL(Epsodic Reinforcement Learning)と残留学習を組み合わせたフレームワークであるMoRe-ERLを提案する。
このフレームワークは、任意のERLメソッドやモーションジェネレータにシームレスに組み込むのに十分である。
MoRe-ERLは、重要なタスクに関連する操作を保存しながら、修正を必要とする軌道セグメントを特定する。
その後、B-Splineベースの運動プリミティブを用いてスムーズな残留調整を生成し、動的タスクコンテキストへの適応性と軌道修正の滑らかさを確保する。
実験結果から, 残留学習はERL法でスクラッチのトレーニングを著しく上回り, より優れたサンプル効率とタスク性能が得られた。
ハードウェア評価では、シミュレーションで訓練されたポリシーが現実世界のシステムに直接デプロイ可能であることを示し、最小限のsim-to-realギャップを示す。
関連論文リスト
- MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - RIFT: Closed-Loop RL Fine-Tuning for Realistic and Controllable Traffic Simulation [8.952198850855426]
データ駆動シミュレータでオープンループ模倣学習を事前学習し、軌道レベルのリアリズムとマルチモーダリティをキャプチャする2段階AV中心シミュレーションフレームワークを提案する。
微調整の段階では、トラジェクトリレベルの多モード性を保持するシンプルな、かつ効果的な閉ループRL微調整戦略であるRIFTを提案する。
大規模な実験により、RIFTは生成された交通シナリオの現実性と制御性を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - Modulating Reservoir Dynamics via Reinforcement Learning for Efficient Robot Skill Synthesis [0.0]
貯水池と呼ばれるランダムなリカレントニューラルネットワークは、コンテキスト入力で条件付けられたロボットの動きを学習するために使用することができる。
本稿では,新しいRCベースのLearning from Demonstration(LfD)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-17T07:25:54Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Reward Guidance for Reinforcement Learning Tasks Based on Large Language Models: The LMGT Framework [1.5802986215292307]
Language Model Guided reward Tuning (LMGT)は、強化学習のための新しい、サンプル効率の高いフレームワークである。
我々は,LMGTが探索と搾取のバランスを良好に保ち,エージェントの探索行動の指針となることを示す。
以上の結果から,LMGTはRL学習期間中に必要な計算資源を大幅に削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z) - Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。
交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。
本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:16:57Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。