論文の概要: Continuous-Time Value Iteration for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.09135v1
- Date: Thu, 11 Sep 2025 04:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.224631
- Title: Continuous-Time Value Iteration for Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のための連続時間値反復
- Authors: Xuefeng Wang, Lei Zhang, Henglin Pu, Ahmed H. Qureshi, Husheng Li,
- Abstract要約: 我々は物理インフォームドニューラルネットワークを用いてHJBに基づく値関数を大規模に近似する。
これにより勾配の忠実度が向上し、より正確な値とより強力なポリシー学習が得られる。
提案手法は,既存の連続時間ベースラインと複雑なマルチエージェント・ダイナミクスのスケールを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 27.73410730631346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing reinforcement learning (RL) methods struggle with complex dynamical systems that demand interactions at high frequencies or irregular time intervals. Continuous-time RL (CTRL) has emerged as a promising alternative by replacing discrete-time Bellman recursion with differential value functions defined as viscosity solutions of the Hamilton--Jacobi--Bellman (HJB) equation. While CTRL has shown promise, its applications have been largely limited to the single-agent domain. This limitation stems from two key challenges: (i) conventional solution methods for HJB equations suffer from the curse of dimensionality (CoD), making them intractable in high-dimensional systems; and (ii) even with HJB-based learning approaches, accurately approximating centralized value functions in multi-agent settings remains difficult, which in turn destabilizes policy training. In this paper, we propose a CT-MARL framework that uses physics-informed neural networks (PINNs) to approximate HJB-based value functions at scale. To ensure the value is consistent with its differential structure, we align value learning with value-gradient learning by introducing a Value Gradient Iteration (VGI) module that iteratively refines value gradients along trajectories. This improves gradient fidelity, in turn yielding more accurate values and stronger policy learning. We evaluate our method using continuous-time variants of standard benchmarks, including multi-agent particle environment (MPE) and multi-agent MuJoCo. Our results demonstrate that our approach consistently outperforms existing continuous-time RL baselines and scales to complex multi-agent dynamics.
- Abstract(参考訳): 既存の強化学習(RL)法は、高頻度または不規則な時間間隔で相互作用を要求する複雑な力学系と競合する。
連続時間 RL (Continuous-time RL, CTRL) は、離散時間ベルマン再帰をハミルトン-ヤコビ-ベルマン方程式(HJB)の粘性解として定義される微分値関数に置き換えることで、有望な代替として現れた。
CTRLは将来性を示しているが、そのアプリケーションはシングルエージェントドメインに限られている。
この制限は2つの主要な課題に起因している。
(i)HJB方程式の従来の解法は、次元性の呪い(CoD)に悩まされ、高次元システムでは難解となる。
(i)HJBに基づく学習アプローチであっても,マルチエージェント設定における集中値関数の正確な近似は困難であり,政策訓練の安定化が図られる。
本稿では,物理インフォームドニューラルネットワーク(PINN)を用いてHJBの値関数を大規模に近似するCT-MARLフレームワークを提案する。
値がその差分構造と整合であることを保証するため,値勾配を軌道に沿って反復的に改善する値勾配反復(VGI)モジュールを導入することで,価値学習と価値勾配学習を整合させる。
これにより勾配の忠実度が向上し、より正確な値とより強力なポリシー学習が得られる。
マルチエージェント粒子環境 (MPE) やマルチエージェント MuJoCo など, 標準ベンチマークの連続時間変動を用いた評価を行った。
提案手法は,既存の連続時間RLベースラインと複雑なマルチエージェント・ダイナミクスのスケールを一貫して上回ることを示す。
関連論文リスト
- Physics-informed Value Learner for Offline Goal-Conditioned Reinforcement Learning [20.424372965054832]
固有偏微分方程式(PDE)から導いた値学習のための物理インフォームド(Pi)正規化損失を提案する。
我々の定式化は、連続時間最適制御に基礎を置いており、値関数がコスト・ツー・ゴー構造と整合することを奨励している。
Hierarchical Implicit Q-Learning (HIQL)と組み合わせると、この手法は性能と一般化の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2025-09-08T15:08:42Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting [26.141054975797868]
本稿では,時系列予測のための新しい適応型マルチスケール分解(AMD)フレームワークを提案する。
我々のフレームワークは時系列を複数のスケールで異なる時間パターンに分解し、MDM(Multi-Scale Decomposable Mixing)ブロックを活用する。
提案手法は,時間依存性とチャネル依存性の両方を効果的にモデル化し,マルチスケールデータ統合を改良するために自己相関を利用する。
論文 参考訳(メタデータ) (2024-06-06T05:27:33Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Beyond Exponentially Fast Mixing in Average-Reward Reinforcement
Learning via Multi-Level Monte Carlo Actor-Critic [61.968469104271676]
本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。
不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
論文 参考訳(メタデータ) (2023-01-28T04:12:56Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。