Fugu-MT 論文翻訳(概要): Action Dependency Graphs for Globally Optimal Coordinated Reinforcement Learning

論文の概要: Action Dependency Graphs for Globally Optimal Coordinated Reinforcement Learning

arxiv url: http://arxiv.org/abs/2506.00797v1
Date: Sun, 01 Jun 2025 02:58:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:33.598125
Title: Action Dependency Graphs for Globally Optimal Coordinated Reinforcement Learning
Title（参考訳）: グローバル最適協調強化学習のための行動依存グラフ
Authors: Jianglin Ding, Jingcheng Tang, Gangshan Jing,
Abstract要約: 行動依存型個別政策は多エージェント強化学習におけるグローバルな最適性を達成するための有望なパラダイムとして浮上している。本研究では、必ずしも自己回帰形式に従わない、より一般化された行動依存型ポリシーを考察する。協調グラフによって構成されたMARL問題の文脈内では、疎ADGを用いた行動依存ポリシーがグローバルな最適性を達成することが証明される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Action-dependent individual policies, which incorporate both environmental states and the actions of other agents in decision-making, have emerged as a promising paradigm for achieving global optimality in multi-agent reinforcement learning (MARL). However, the existing literature often adopts auto-regressive action-dependent policies, where each agent's policy depends on the actions of all preceding agents. This formulation incurs substantial computational complexity as the number of agents increases, thereby limiting scalability. In this work, we consider a more generalized class of action-dependent policies, which do not necessarily follow the auto-regressive form. We propose to use the `action dependency graph (ADG)' to model the inter-agent action dependencies. Within the context of MARL problems structured by coordination graphs, we prove that an action-dependent policy with a sparse ADG can achieve global optimality, provided the ADG satisfies specific conditions specified by the coordination graph. Building on this theoretical foundation, we develop a tabular policy iteration algorithm with guaranteed global optimality. Furthermore, we integrate our framework into several SOTA algorithms and conduct experiments in complex environments. The empirical results affirm the robustness and applicability of our approach in more general scenarios, underscoring its potential for broader MARL challenges.
Abstract（参考訳）: 多エージェント強化学習(MARL)において、環境状態と他エージェントの意思決定行動の両方を取り入れた行動依存個別政策が、グローバルな最適性を達成するための有望なパラダイムとして浮上している。しかしながら、既存の文献では、各エージェントのポリシーが先行するすべてのエージェントのアクションに依存する自己回帰的なアクション依存のポリシーがしばしば採用されている。この定式化は、エージェントの数が増えるにつれてかなりの計算複雑性をもたらし、拡張性を制限する。本研究では、必ずしも自己回帰形式に従わない、より一般化された行動依存型ポリシーを考察する。我々は、エージェント間のアクション依存をモデル化するために 'action dependency graph (ADG)' を提案する。コーディネーショングラフによって構成されるMARL問題の文脈内では、調整グラフで指定された特定の条件を満たすと、スパースADGを用いたアクション依存ポリシーが大域的最適性を達成することが証明される。この理論の基礎の上に構築され,グローバルな最適性を保証した表形式のポリシー反復アルゴリズムを開発した。さらに、我々のフレームワークを複数のSOTAアルゴリズムに統合し、複雑な環境で実験を行う。実験結果は、より一般的なシナリオにおける我々のアプローチの堅牢性と適用性を確認し、より広範なMARL課題の可能性を裏付けるものである。

関連論文リスト

Action-Graph Policies: Learning Action Co-dependencies in Multi-Agent Reinforcement Learning [7.702487800530373]
協調行動は多エージェント強化学習における最も基本的な協調形態である。我々はエージェントの利用可能なアクション選択間の依存関係をモデル化するアクショングラフポリシー(AGP)を提案する。 AGPは多様なマルチエージェント環境で他のMARLメソッドよりも一貫して優れている。
論文参考訳（メタデータ） (2026-02-19T02:13:29Z)
Achieving Equilibrium under Utility Heterogeneity: An Agent-Attention Framework for Multi-Agent Multi-Objective Reinforcement Learning [30.138706163658597]
本稿では,エージェント型マルチエージェント多目的強化学習(AA-MAMORL)フレームワークを提案する。我々のアプローチは、訓練中に、他のエージェントのユーティリティ機能と関連するポリシーに対する共同信条を暗黙的に学習する。実行中、各エージェントは、BNEを近似するために、ローカル観測とプライベートユーティリティ機能に基づいて、独立してアクションを選択する。
論文参考訳（メタデータ） (2025-11-12T03:06:21Z)
Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文参考訳（メタデータ） (2025-05-09T11:42:31Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization [8.877649895977479]
オフラインマルチエージェント強化学習(英語: offline Multi-Agent Reinforcement Learning, MARL)は、事前コンパイルされたデータセットから最適なマルチエージェントポリシーを学ぶことを目的とした新興分野である。本研究では、既存のオフラインMARLメソッドを再検討し、特定のシナリオにおいて問題となる可能性があることを示す。 In-Sample Sequential Policy Optimization (InSPO) と呼ばれる新しいオフラインMARLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-10T16:19:08Z)
Role Play: Learning Adaptive Role-Specific Strategies in Multi-Agent Interactions [8.96091816092671]
emphRole Play (RP) という新しいフレームワークを提案する。 RPは、政策の多様性の課題を、より管理可能な役割の多様性に変えるために役割埋め込みを採用している。ロール埋め込み観察で共通の方針を訓練し、他のエージェントのジョイントロール埋め込みを推定するためにロール予測器を使用し、学習エージェントが割り当てられた役割に適応するのを助ける。
論文参考訳（メタデータ） (2024-11-02T07:25:48Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。 r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。 r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-01-12T11:27:55Z)
Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文参考訳（メタデータ） (2023-11-01T00:15:18Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
Context-Aware Bayesian Network Actor-Critic Methods for Cooperative Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。 MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文参考訳（メタデータ） (2023-06-02T21:22:27Z)
Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2023-05-08T16:20:03Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Towards Global Optimality in Cooperative MARL with the Transformation And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文参考訳（メタデータ） (2022-07-12T06:59:13Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。