Fugu-MT 論文翻訳(概要): Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control

論文の概要: Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control

arxiv url: http://arxiv.org/abs/2408.17380v1
Date: Fri, 30 Aug 2024 16:16:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 14:46:39.865554
Title: Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control
Title（参考訳）: 交通専門知識と残差RL:CAV軌道制御のための知識インフォームドモデルに基づく残留強化学習
Authors: Zihao Sheng, Zilin Huang, Sikai Chen,
Abstract要約: 本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
参考スコア（独自算出の注目度）: 1.5361702135159845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model-based reinforcement learning (RL) is anticipated to exhibit higher sample efficiency compared to model-free RL by utilizing a virtual environment model. However, it is challenging to obtain sufficiently accurate representations of the environmental dynamics due to uncertainties in complex systems and environments. An inaccurate environment model may degrade the sample efficiency and performance of model-based RL. Furthermore, while model-based RL can improve sample efficiency, it often still requires substantial training time to learn from scratch, potentially limiting its advantages over model-free approaches. To address these challenges, this paper introduces a knowledge-informed model-based residual reinforcement learning framework aimed at enhancing learning efficiency by infusing established expert knowledge into the learning process and avoiding the issue of beginning from zero. Our approach integrates traffic expert knowledge into a virtual environment model, employing the Intelligent Driver Model (IDM) for basic dynamics and neural networks for residual dynamics, thus ensuring adaptability to complex scenarios. We propose a novel strategy that combines traditional control methods with residual RL, facilitating efficient learning and policy optimization without the need to learn from scratch. The proposed approach is applied to CAV trajectory control tasks for the dissipation of stop-and-go waves in mixed traffic flow. Experimental results demonstrate that our proposed approach enables the CAV agent to achieve superior performance in trajectory control compared to the baseline agents in terms of sample efficiency, traffic flow smoothness and traffic mobility. The source code and supplementary materials are available at https://github.com/zihaosheng/traffic-expertise-RL/.
Abstract（参考訳）: モデルベース強化学習 (RL) は, 仮想環境モデルを用いて, モデルフリーのRLに比べて高いサンプル効率を示すことが期待されている。しかし,複雑なシステムや環境の不確実性から,環境力学の十分な正確な表現を得ることは困難である。不正確な環境モデルは、モデルベースRLのサンプル効率と性能を劣化させる可能性がある。さらに、モデルベースのRLはサンプル効率を改善することができるが、スクラッチから学ぶのに十分なトレーニング時間を必要とする場合も少なくない。これらの課題に対処するために,既存の知識を学習プロセスに注入し,ゼロから始める問題を回避し,学習効率を向上させることを目的とした,知識インフォームドモデルに基づく強化学習フレームワークを提案する。当社のアプローチでは,交通専門家の知識を仮想環境モデルに統合し,基本力学の知能ドライバモデル(IDM)と残留力学のニューラルネットワークを用い,複雑なシナリオへの適応性を確保する。本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。提案手法は,混合交通流中における停止・停止波の消散のためのCAV軌道制御タスクに適用される。実験により,提案手法により, サンプル効率, 交通流の平滑性, 交通移動性の観点から, CAV エージェントは, ベースラインエージェントに比べ, トラジェクトリ制御の優れた性能が得られることが示された。ソースコードと補助資料はhttps://github.com/zihaosheng/traffic-expertise-RL/で入手できる。

関連論文リスト

Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts [113.0656076371565]
オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
論文参考訳（メタデータ） (2025-10-27T05:47:48Z)
Model-free Reinforcement Learning for Model-based Control: Towards Safe, Interpretable and Sample-efficient Agents [6.9290255098776425]
この研究は、制御ポリシー近似の魅力的な代替手段としてモデルベースエージェントを導入している。これらのモデルは、エージェントの決定を知らせ、制約し、助けるために、事前のシステム知識を符号化することができる。モデルベースエージェントの学習のメリットと課題について概説する。
論文参考訳（メタデータ） (2025-07-17T18:59:54Z)
Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws [52.10468229008941]
本稿では,戦略データの選択や重み付けを通じて,対象モデルのトレーニングを指導・強化するための基準として,訓練モデルを用いた新たな学習パラダイムを定式化する。提案手法は,参照モデルを持たないトレーニングと比較して,一般化とデータの効率性を改善する理由に関する理論的知見を提供する。これらの知見に基づいて,DRRho-CLIPと呼ばれる参照モデルを用いたコントラスト言語-画像事前学習手法を提案する。
論文参考訳（メタデータ） (2025-05-10T16:55:03Z)
Sample-Efficient Reinforcement Learning of Koopman eNMPC [42.72938925647165]
強化学習は、データ駆動(経済)非線形モデル予測コントローラ((e)NMPC)を、特定の制御タスクにおける最適な性能に調整するために使用することができる。モデルに基づくRLアルゴリズムと、Koopman (e)NMPCを自動微分可能なポリシーに変換する方法を組み合わせる。
論文参考訳（メタデータ） (2025-03-24T15:35:16Z)
Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文参考訳（メタデータ） (2025-02-20T18:39:41Z)
MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文参考訳（メタデータ） (2024-01-06T21:04:31Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Reinforcement Learning with Human Feedback for Realistic Traffic Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文参考訳（メタデータ） (2023-09-01T19:29:53Z)
Simplified Temporal Consistency Reinforcement Learning [19.814047499837084]
本稿では,潜時整合性によって訓練された潜時力学モデルに依存する単純な表現学習手法が,高性能なRLには十分であることを示す。提案手法は,モデルフリー手法を大きなマージンで上回り,モデルベース手法のサンプル効率を2.4倍高速にトレーニングしながら比較する。
論文参考訳（メタデータ） (2023-06-15T19:37:43Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Learning a model is paramount for sample efficiency in reinforcement learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文参考訳（メタデータ） (2023-02-14T16:14:39Z)
Efficient Learning of Voltage Control Strategies via Model-based Deep Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-06T02:50:53Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Uncertainty-Aware Model-Based Reinforcement Learning with Application to Autonomous Driving [2.3303341607459687]
本稿では,新しい不確実性を考慮したモデルに基づく強化学習フレームワークを提案する。このフレームワークは適応的トランケーションアプローチに基づいて開発され、エージェントと環境モデルの間の仮想相互作用を提供する。開発したアルゴリズムは、エンド・ツー・エンドの自動運転車制御タスクで実装され、様々な運転シナリオにおける最先端の手法と比較される。
論文参考訳（メタデータ） (2021-06-23T06:55:14Z)
Learning to Reweight Imaginary Transitions for Model-Based Reinforcement Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文参考訳（メタデータ） (2021-04-09T03:13:35Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。