論文の概要: Hybrid Differential Reward: Combining Temporal Difference and Action Gradients for Efficient Multi-Agent Reinforcement Learning in Cooperative Driving
- arxiv url: http://arxiv.org/abs/2511.16916v1
- Date: Fri, 21 Nov 2025 02:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.868321
- Title: Hybrid Differential Reward: Combining Temporal Difference and Action Gradients for Efficient Multi-Agent Reinforcement Learning in Cooperative Driving
- Title(参考訳): ハイブリッド・ディファレンシャル・リワード:協調運転における効率的なマルチエージェント強化学習のための時間差と行動勾配の組み合わせ
- Authors: Ye Han, Lijun Zhang, Dejian Meng, Zhuang Zhang,
- Abstract要約: 複数車両の協調運転タスクでは、従来の州ベースの報酬関数は報酬の相違を解消する。
本稿では,この問題を解決するためのハイブリッド微分リワード機構を提案する。
交通効率と安全性を効果的に向上させる高品質な協調政策を学ぶようエージェントに指導する。
- 参考スコア(独自算出の注目度): 15.387374116985605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-vehicle cooperative driving tasks involving high-frequency continuous control, traditional state-based reward functions suffer from the issue of vanishing reward differences. This phenomenon results in a low signal-to-noise ratio (SNR) for policy gradients, significantly hindering algorithm convergence and performance improvement. To address this challenge, this paper proposes a novel Hybrid Differential Reward (HDR) mechanism. We first theoretically elucidate how the temporal quasi-steady nature of traffic states and the physical proximity of actions lead to the failure of traditional reward signals. Building on this analysis, the HDR framework innovatively integrates two complementary components: (1) a Temporal Difference Reward (TRD) based on a global potential function, which utilizes the evolutionary trend of potential energy to ensure optimal policy invariance and consistency with long-term objectives; and (2) an Action Gradient Reward (ARG), which directly measures the marginal utility of actions to provide a local guidance signal with a high SNR. Furthermore, we formulate the cooperative driving problem as a Multi-Agent Partially Observable Markov Game (POMDPG) with a time-varying agent set and provide a complete instantiation scheme for HDR within this framework. Extensive experiments conducted using both online planning (MCTS) and Multi-Agent Reinforcement Learning (QMIX, MAPPO, MADDPG) algorithms demonstrate that the HDR mechanism significantly improves convergence speed and policy stability. The results confirm that HDR guides agents to learn high-quality cooperative policies that effectively balance traffic efficiency and safety.
- Abstract(参考訳): 高周波連続制御を含む多車両協調運転では、従来の状態ベース報酬関数は報酬差の解消の問題に悩まされる。
この現象は、ポリシー勾配に対する低信号対雑音比(SNR)をもたらし、アルゴリズムの収束と性能改善を著しく阻害する。
そこで本研究では,Hybrid Differential Reward(HDR)機構を提案する。
まず,交通状態の時間的準定常性や行動の物理的近接性が,従来の報酬信号の故障にどのように寄与するかを理論的に解明する。
この分析に基づいて,HDRフレームワークは,(1)大域的ポテンシャル関数に基づく時間差リワード (TRD) と,(2) 行動の限界効用を直接測定し,SNRの高い局所誘導信号を提供する行動勾配リワード (ARG) の2つの相補的要素を革新的に統合する。
さらに,多エージェント部分観測可能なマルコフゲーム(POMDPG)として,時間変化エージェントセットを用いて協調運転問題を定式化し,HDRの完全なインスタンス化方式を提供する。
オンラインプランニング (MCTS) とマルチエージェント強化学習 (QMIX, MAPPO, MADDPG) のアルゴリズムを併用した大規模な実験により, HDR機構が収束速度と政策安定性を著しく向上することを示した。
その結果,HDRは,交通効率と安全性を効果的にバランスさせる,高品質な協調政策の学習をエージェントが指導することが確認された。
関連論文リスト
- STAR-RIS-assisted Collaborative Beamforming for Low-altitude Wireless Networks [58.13757830013997]
無人航空機(UAV)に基づく無線ネットワークは、都市コミュニケーションに高いモビリティ、柔軟性、カバーを提供する。
閉塞により、密集した環境では信号の減衰が激しい。
この重要な問題に対処するために、UAVの協調ビームの導入と全方向逆方向ビームフォーミングについて検討する。
論文 参考訳(メタデータ) (2025-10-25T01:28:37Z) - HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking [80.07224739976911]
イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
論文 参考訳(メタデータ) (2025-10-22T13:15:13Z) - Cooperative Target Detection with AUVs: A Dual-Timescale Hierarchical MARDL Approach [59.81681228738068]
敵の環境では、効率的な協調を実現するとともに、隠蔽活動を確保することが、水中での協力ミッションにとって重要な課題である。
本稿では,新しい時間スケール階層型マルチエージェント・ポリシー最適化フレームワークを提案する。
提案手法は, 高速収束を実現し, ベンチマークアルゴリズムの性能を向上し, 長期協調効率を最大化し, 隠蔽動作の確保を図る。
論文 参考訳(メタデータ) (2025-09-16T09:31:32Z) - Multi-Agent Trust Region Policy Optimisation: A Joint Constraint Approach [17.48210470289556]
Heterogeneous-Agent Trust Region Policy Optimization (HATRPO) は、Kulback-Leibler (KL) の分散を用いて、訓練の安定化を図る。
各エージェントを同じKL閾値に割り当てると、特に不均一な設定において、遅くて局所的に最適な更新につながる可能性がある。
エージェント間のKL分散しきい値の割当には,グローバルなKL制約下でのしきい値割り当てを最適化するKKT法であるHATRPO-Wと,改善に基づくエージェントの優先順位付けを行うgreedyアルゴリズムであるHATRPO-Gの2つの方法を提案する。
論文 参考訳(メタデータ) (2025-08-14T04:48:46Z) - On the Effect of Regularization in Policy Mirror Descent [0.0]
強化学習(RL)における統一的枠組みとして、政策ミラー・ダイスン(PMD)が出現している。
PMDには、(i)安定政策更新のための信頼領域を強制する距離項と、(ii)構造と堅牢性を促進するために報酬関数を増強するMDP正規化器の2つの重要な正規化要素が組み込まれている。
この研究は、小さなRL環境で500k以上のトレーニングシードを実行するこの2つの正規化技術間の相互作用を、大規模な実証分析によって分析する。
論文 参考訳(メタデータ) (2025-07-11T16:19:45Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - Guided Cooperation in Hierarchical Reinforcement Learning via Model-based Rollout [16.454305212398328]
モデルベースロールアウト(GCMR)を用いたガイド協調という,目標条件付き階層型強化学習(HRL)フレームワークを提案する。
GCMRは、フォワードダイナミクスを利用して層間情報同期と協調をブリッジすることを目的としている。
実験により,提案したGCMRフレームワークをHIGLのアンタングル変種(ACLG)に組み込むことにより,より安定かつ堅牢な政策改善が得られた。
論文 参考訳(メタデータ) (2023-09-24T00:13:16Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。