論文の概要: MALinZero: Efficient Low-Dimensional Search for Mastering Complex Multi-Agent Planning
- arxiv url: http://arxiv.org/abs/2511.06142v1
- Date: Sat, 08 Nov 2025 21:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.777197
- Title: MALinZero: Efficient Low-Dimensional Search for Mastering Complex Multi-Agent Planning
- Title(参考訳): MALinZero: 複雑なマルチエージェント計画のための効率的な低次元探索
- Authors: Sizhe Tang, Jiayu Chen, Tian Lan,
- Abstract要約: 我々は,MALinZeroを提案する。これは,関節-作用リターンにおける低次元表現構造を活用するための新しいアプローチである。
MALinZeroは、行列ゲーム、SMAC、SMACv2のようなマルチエージェントベンチマークで最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 8.28864605730277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte Carlo Tree Search (MCTS), which leverages Upper Confidence Bound for Trees (UCTs) to balance exploration and exploitation through randomized sampling, is instrumental to solving complex planning problems. However, for multi-agent planning, MCTS is confronted with a large combinatorial action space that often grows exponentially with the number of agents. As a result, the branching factor of MCTS during tree expansion also increases exponentially, making it very difficult to efficiently explore and exploit during tree search. To this end, we propose MALinZero, a new approach to leverage low-dimensional representational structures on joint-action returns and enable efficient MCTS in complex multi-agent planning. Our solution can be viewed as projecting the joint-action returns into the low-dimensional space representable using a contextual linear bandit problem formulation. We solve the contextual linear bandit problem with convex and $\mu$-smooth loss functions -- in order to place more importance on better joint actions and mitigate potential representational limitations -- and derive a linear Upper Confidence Bound applied to trees (LinUCT) to enable novel multi-agent exploration and exploitation in the low-dimensional space. We analyze the regret of MALinZero for low-dimensional reward functions and propose an $(1-\tfrac1e)$-approximation algorithm for the joint action selection by maximizing a sub-modular objective. MALinZero demonstrates state-of-the-art performance on multi-agent benchmarks such as matrix games, SMAC, and SMACv2, outperforming both model-based and model-free multi-agent reinforcement learning baselines with faster learning speed and better performance.
- Abstract(参考訳): モンテカルロ木探索(MCTS)は、高信頼境界木(UCT)を利用してランダムサンプリングによる探索と利用のバランスをとることで、複雑な計画問題の解決に役立っている。
しかし、マルチエージェント計画においては、MCTSはエージェントの数とともに指数関数的に増加する大きな組合せ行動空間に直面している。
その結果,木の拡大に伴うMCTSの分岐係数も指数関数的に増加し,木探索において効率的に探索・活用することが極めて困難となった。
この目的のために,MALinZeroを提案する。MALinZeroは,関節-動作リターンにおける低次元表現構造を利用して,複雑なマルチエージェント計画において効率的なMCTSを実現する手法である。
我々の解は、文脈線形帯域問題定式化を用いて、結合作用を表現可能な低次元空間に投影すると見なすことができる。
コンベックスと$\mu$-smoothロス関数を用いてコンテキスト線形帯域問題(英語版)を解き、より優れたジョイントアクションを重要視し、潜在的な表現制限を緩和し、木(LinUCT)に適用された線形上部信頼境界を導出し、低次元空間における新しいマルチエージェント探索と利用を可能にする。
低次元報酬関数に対するMALinZeroの後悔を解析し、サブモジュラー目的を最大化することにより、関節動作選択のための$(1-\tfrac1e)$-approximationアルゴリズムを提案する。
MALinZeroは、行列ゲーム、SMAC、SMACv2などのマルチエージェントベンチマークで最先端のパフォーマンスを示し、モデルベースおよびモデルフリーのマルチエージェント強化学習ベースラインを高速な学習速度と優れたパフォーマンスで上回っている。
関連論文リスト
- Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Improved Monte Carlo Planning via Causal Disentanglement for Structurally-Decomposed Markov Decision Processes [0.9768138268100163]
本稿では,MDPの時間的因果グラフを独立成分に分割するために,因果解離を利用した構造分解型MDP(SD-MDP)を提案する。
様々な物流および金融分野のベンチマークよりも優れた政策性能を示す。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - Fleet of Agents: Coordinated Problem Solving with Large Language Models [10.167121757937062]
Fleet of Agents(FoA)は、動的ツリー検索をナビゲートするエージェントとして大きな言語モデルを利用する、原則化されたフレームワークである。
FoAは多数のエージェントを発生させ、それぞれが自律的に検索空間を探索し、次に選択フェーズを行う。
FoAはすべてのベンチマーク手法の中で最高のコスト品質のトレードオフを実現し、FoA + LMA3.2-11BはLlama3.2-90Bモデルを上回る。
論文 参考訳(メタデータ) (2024-05-07T09:36:23Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Distributed Consensus Algorithm for Decision-Making in Multi-agent
Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。
グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。
目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文 参考訳(メタデータ) (2023-06-09T16:10:26Z) - Multi-Agent Reinforcement Learning for Adaptive Mesh Refinement [17.72127385405445]
完全協調型マルコフゲームとしてアダプティブメッシュリファインメント(AMR)の新たな定式化を提案する。
VDGN(Value Decomposition Graph Network)と呼ばれる新しい深層マルチエージェント強化学習アルゴリズムを設計する。
VDGNポリシは,グローバルエラーおよびコスト指標において,エラーしきい値に基づくポリシよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-02T00:41:32Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。