論文の概要: Towards a Reward-Free Reinforcement Learning Framework for Vehicle Control
- arxiv url: http://arxiv.org/abs/2502.15262v1
- Date: Fri, 21 Feb 2025 07:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 19:42:16.932717
- Title: Towards a Reward-Free Reinforcement Learning Framework for Vehicle Control
- Title(参考訳): 車両制御のためのリワードフリー強化学習フレームワークを目指して
- Authors: Jielong Yang, Daoyuan Huang,
- Abstract要約: 強化学習は、最適な制御戦略を学ぶためのエージェントを導くことによって、車両制御において重要な役割を担っている。
車両制御アプリケーションでは、通常、報酬は複数の暗黙的要因を考慮して手動で設計する必要がある。
本稿では,これらの問題に対処するためのRFRLF(Regend-free Regressed Learning framework)を提案する。
- 参考スコア(独自算出の注目度): 1.5883812630616523
- License:
- Abstract: Reinforcement learning plays a crucial role in vehicle control by guiding agents to learn optimal control strategies through designing or learning appropriate reward signals. However, in vehicle control applications, rewards typically need to be manually designed while considering multiple implicit factors, which easily introduces human biases. Although imitation learning methods does not rely on explicit reward signals, they necessitate high-quality expert actions, which are often challenging to acquire. To address these issues, we propose a reward-free reinforcement learning framework (RFRLF). This framework directly learns the target states to optimize agent behavior through a target state prediction network (TSPN) and a reward-free state-guided policy network (RFSGPN), avoiding the dependence on manually designed reward signals. Specifically, the policy network is learned via minimizing the differences between the predicted state and the expert state. Experimental results demonstrate the effectiveness of the proposed RFRLF in controlling vehicle driving, showing its advantages in improving learning efficiency and adapting to reward-free environments.
- Abstract(参考訳): 強化学習は、適切な報酬信号の設計や学習を通じて最適な制御戦略を学ぶためのエージェントを導くことによって、車両制御において重要な役割を担っている。
しかし、車両制御アプリケーションでは、報酬は複数の暗黙の要因を考慮して手動で設計する必要がある。
模倣学習法は明確な報奨信号に依存しないが、取得が困難な高品質な専門家の行動を必要とする。
これらの課題に対処するために、報酬なし強化学習フレームワーク(RFRLF)を提案する。
このフレームワークは、ターゲット状態を直接学習し、ターゲット状態予測ネットワーク(TSPN)と報酬自由状態誘導ポリシーネットワーク(RFSGPN)を介してエージェントの動作を最適化し、手動で設計された報酬信号への依存を避ける。
具体的には、予測状態とエキスパート状態の差を最小限にしてポリシーネットワークを学習する。
実験により,車載運転制御におけるRFRLFの有効性が示され,学習効率の向上と報酬のない環境への適応のメリットが示された。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Informed Reinforcement Learning for Situation-Aware Traffic Rule Exceptions [22.305075467333673]
本稿では,構造化ルールブックを知識源として統合するインフォームド強化学習を紹介する。
我々は、トラジェクトリを学び、それらを状況に応じた報酬設計で評価し、エージェントが制御された交通規則例外を必要とする状況を学ぶことができる動的な報酬をもたらす。
論文 参考訳(メタデータ) (2024-02-06T17:24:06Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Risk-Aware Reward Shaping of Reinforcement Learning Agents for
Autonomous Driving [6.613838702441967]
本稿では,自律運転におけるRLエージェントのトレーニングとテスト性能を活用するために,リスク認識型報酬形成手法について検討する。
我々は、危険運転行動の探索と罰則を奨励する追加のリフォーム報酬項を提案する。
論文 参考訳(メタデータ) (2023-06-05T20:10:36Z) - Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。
実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文 参考訳(メタデータ) (2022-07-05T16:33:20Z) - Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。
擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文 参考訳(メタデータ) (2022-06-28T17:08:31Z) - Automatically Learning Fallback Strategies with Model-Free Reinforcement
Learning in Safety-Critical Driving Scenarios [9.761912672523977]
本稿では, モデルレス強化学習(RL)エージェントに対して, 環境内の複数の動作モードを捉えるための原則的アプローチを提案する。
我々は、報酬モデルに擬似報酬項を導入し、最適政策によって特権付けられた領域とは異なる国家空間の領域への探索を奨励する。
我々は、トレーニング中に見逃されたであろう有用なポリシーを学習でき、制御アルゴリズムの実行時に使用できないことを示す。
論文 参考訳(メタデータ) (2022-04-11T15:34:49Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Falsification-Based Robust Adversarial Reinforcement Learning [13.467693018395863]
Falsification-based RARL (FRARL) は、対人学習における時間論理のファルシフィケーションを統合するための最初の汎用フレームワークである。
実験結果から, ファルシフィケーションをベースとした対向法で訓練したポリシーは, より一般化され, テストシナリオにおける安全仕様の違反が少なくなることが示された。
論文 参考訳(メタデータ) (2020-07-01T18:32:05Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。