論文の概要: Interactive Double Deep Q-network: Integrating Human Interventions and Evaluative Predictions in Reinforcement Learning of Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.01440v1
- Date: Mon, 28 Apr 2025 05:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.105203
- Title: Interactive Double Deep Q-network: Integrating Human Interventions and Evaluative Predictions in Reinforcement Learning of Autonomous Driving
- Title(参考訳): 対話型ダブルディープQネットワーク:自動運転の強化学習における人間の介入と評価予測の統合
- Authors: Alkis Sygkounas, Ioannis Athanasiadis, Andreas Persson, Michael Felsberg, Amy Loutfi,
- Abstract要約: 本研究では、強化学習(RL)を強化するHuman-in-the-Loop(HITL)アプローチであるInteractive Double Deep Q-network(iDDQN)を導入する。
提案したiDDQN法は,Q値更新方程式を修正して,人間とエージェントのアクションを統合することで,政策開発のための協調的アプローチを確立する。
シミュレーションされた自律走行シナリオにおける実証的な結果は、iDDQNが確立されたアプローチより優れていることを示している。
- 参考スコア(独自算出の注目度): 16.379623042562415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating human expertise with machine learning is crucial for applications demanding high accuracy and safety, such as autonomous driving. This study introduces Interactive Double Deep Q-network (iDDQN), a Human-in-the-Loop (HITL) approach that enhances Reinforcement Learning (RL) by merging human insights directly into the RL training process, improving model performance. Our proposed iDDQN method modifies the Q-value update equation to integrate human and agent actions, establishing a collaborative approach for policy development. Additionally, we present an offline evaluative framework that simulates the agent's trajectory as if no human intervention had occurred, to assess the effectiveness of human interventions. Empirical results in simulated autonomous driving scenarios demonstrate that iDDQN outperforms established approaches, including Behavioral Cloning (BC), HG-DAgger, Deep Q-Learning from Demonstrations (DQfD), and vanilla DRL in leveraging human expertise for improving performance and adaptability.
- Abstract(参考訳): 人間の専門知識と機械学習を統合することは、自律運転のような高い精度と安全性を必要とするアプリケーションにとって不可欠である。
本研究では、RLトレーニングプロセスに直接人間の洞察を統合し、モデル性能を向上させることで強化学習(RL)を強化するHuman-in-the-Loop(HITL)アプローチであるInteractive Double Deep Q-network(iDDQN)を紹介する。
提案したiDDQN法は,Q値更新方程式を修正して,人間とエージェントのアクションを統合することで,政策開発のための協調的アプローチを確立する。
さらに、エージェントの軌道をまるで人間の介入が起こらなかったかのようにシミュレートし、人間の介入の有効性を評価するオフライン評価フレームワークを提案する。
シミュレーションされた自律運転シナリオにおける実証的な結果は、iDDQNが、行動クローン(BC)、HG-DAgger、DQfD(Deep Q-Learning from Demonstrations)、バニラDRL(vanilla DRL)といった確立されたアプローチよりも優れたパフォーマンスと適応性を向上させることを示す。
関連論文リスト
- Rationality based Innate-Values-driven Reinforcement Learning [1.8220718426493654]
本来の価値はエージェントの本質的なモチベーションを表しており、それはエージェントの本来の関心や目標を追求する好みを反映している。
これはAIエージェントの固有値駆動(IV)行動を記述するための優れたモデルである。
本稿では,階層型強化学習モデルを提案する。
論文 参考訳(メタデータ) (2024-11-14T03:28:02Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。