Fugu-MT 論文翻訳(概要): Adaptive TD-Lambda for Cooperative Multi-agent Reinforcement Learning

論文の概要: Adaptive TD-Lambda for Cooperative Multi-agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2605.11880v1
Date: Tue, 12 May 2026 09:56:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:56.778781
Title: Adaptive TD-Lambda for Cooperative Multi-agent Reinforcement Learning
Title（参考訳）: 協調型マルチエージェント強化学習のための適応型TD-Lambda
Authors: Yue Deng, Zirui Wang, Yin Zhang,
Abstract要約: いくつかの最近の研究は、適応的な$$値と、単一エージェント強化学習領域のポリシー分布を関連付けている。複数のエージェントからの大規模な共同行動空間と、マルチエージェント強化学習における限られた遷移データにより、政策分布を統計的に計算することは不可能である。統計的に計算する代わりに、2つのリプレイバッファを持つパラメトリック確率自由密度比推定器を用いる。
参考スコア（独自算出の注目度）: 28.30054999007724
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: TD($λ$) in value-based MARL algorithms or the Temporal Difference critic learning in Actor-Critic-based (AC-based) algorithms synergistically integrate elements from Monte-Carlo simulation and Q function bootstrapping via dynamic programming, which effectively addresses the inherent bias-variance trade-off in value estimation. Based on that, some recent works link the adaptive $λ$ value to the policy distribution in the single-agent reinforcement learning area. However, because of the large joint action space from multiple number of agents, and the limited transition data in Multi-agent Reinforcement Learning, the policy distribution is infeasible to be calculated statistically. To solve the policy distribution calculation problem in MARL settings, we employ a parametric likelihood-free density ratio estimator with two replay buffers instead of calculating statistically. The two replay buffers of different sizes store the historical trajectories that represent the data distribution of the past and current policies correspondingly. Based on the estimator, we assign Adaptive TD($λ$), \textbf{ATD($λ$)}, values to state-action pairs based on their likelihood under the stationary distribution of the current policy. We apply the proposed method on two competitive baseline methods, QMIX for value-based algorithms, and MAPPO for AC-based algorithms, over SMAC benchmarks and Gfootball academy scenarios, and demonstrate consistently competitive or superior performance compared to other baseline approaches with static $λ$ values.
Abstract（参考訳）: TD($λ$) in value-based MARL algorithm or the Temporal Difference critic learning in Actor-Critic-based (AC-based) algorithm synergisticly integrate elements from Monte-Carlo Simulation and Q function bootstrapping via dynamic programming, which is effective address the inherent bias-variance trade-off in value estimation。それに基づいて、最近のいくつかの研究は、適応的な$λ$値と単一エージェント強化学習領域のポリシー分布をリンクしている。しかし, エージェント数の多い共同行動空間と, 多エージェント強化学習における限られた遷移データにより, 政策分布を統計的に計算することは不可能である。 MARL設定におけるポリシ分布計算の問題を解決するため、統計的に計算する代わりに、2つのリプレイバッファを持つパラメトリック測度自由密度比推定器を用いる。異なるサイズの2つのリプレイバッファは、過去のデータ分布と現在のポリシーに対応する履歴軌跡を格納する。推定器に基づいて、適応的TD($λ$), \textbf{ATD($λ$)} を現在のポリシーの定常分布の下での状態-作用対に割り当てる。提案手法は,値ベースアルゴリズムのQMIX,ACベースアルゴリズムのMAPPO,SMACベンチマークとGfootballアカデミーのシナリオに対して適用し,静的な$λ$値を持つ他のベースライン手法と比較して一貫した競合性や優れた性能を示す。

関連論文リスト

Value-Guidance MeanFlow for Offline Multi-Agent Reinforcement Learning [42.476656442284835]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから最適なジョイントポリシーを学ぶことを目的としている。本稿では,シンプルなフローベースのポリシー学習フレームワークであるValue Guidance Multi-agent MeanFlow Policy (VGM$2$P)を提案する。 VGM$2$Pは、グローバルなアドバンテージ値を使用してエージェントの協調をガイドし、最適なポリシー学習を条件付き行動クローンとして扱う。
論文参考訳（メタデータ） (2026-04-09T12:31:43Z)
Learning Partial Action Replacement in Offline MARL [11.861550409939818]
部分アクション置換(Partial Action Replacement)は、アクションをデータセットするエージェントのサブセットをアンカーすることで、これを緩和する。 PLCQLは、PARサブセット選択を文脈的帯域幅問題として定式化するフレームワークである。本研究では,推定誤差が予測されるエージェント数と線形にスケールすることを示す値エラー境界を証明した。
論文参考訳（メタデータ） (2026-03-30T15:28:13Z)
Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文参考訳（メタデータ） (2025-05-21T09:41:53Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
$K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文参考訳（メタデータ） (2023-06-07T23:55:12Z)
Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。 Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-28T08:30:01Z)
Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。 Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文参考訳（メタデータ） (2022-12-29T18:25:01Z)
Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。 PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文参考訳（メタデータ） (2020-07-31T01:02:57Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。