論文の概要: NonZero: Interaction-Guided Exploration for Multi-Agent Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2605.00751v1
- Date: Fri, 01 May 2026 16:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:29.008606
- Title: NonZero: Interaction-Guided Exploration for Multi-Agent Monte Carlo Tree Search
- Title(参考訳): NonZero:マルチエージェントモンテカルロ木探索のためのインタラクションガイドによる探索
- Authors: Sizhe Tang, Zuyuan Zhang, Mahdi Imani, Tian Lan,
- Abstract要約: NonZeroは低次元非線形表現上で代理誘導選択を実行する。
NonZeroはMateGame、SMAC、SMACv2のサンプル効率と最終的なパフォーマンスを改善している。
- 参考スコア(独自算出の注目度): 13.475979777462094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte Carlo Tree Search (MCTS) scales poorly in cooperative multi-agent domains because expansion must consider an exponentially large set of joint actions, severely limiting exploration under realistic search budgets. We propose NonZero, which keeps multi-agent MCTS tractable by running surrogate-guided selection over a low-dimensional nonlinear representation using an interaction-guided proposal rule, instead of directly exploring the full joint-action space. Our exploration uses an interaction score: single-agent deviations are ranked by predicted gain, while two-agent deviations are scored by a mixed-difference measure that reveals coordination benefits even when no single agent can improve alone. We formalize candidate proposal as a bandit problem over local deviations and derive a proposal rule, NonZero, with a sublinear local-regret guarantee for reaching approximate graph-local optima without enumerating the joint-action space. Empirically, NonZero improves sample efficiency and final performance on MatGame, SMAC, and SMACv2 relative to strong model-based and model-free baselines under matched search budgets.
- Abstract(参考訳): モンテカルロ木探索(MCTS)は、協力的な多エージェント領域において、拡張が指数関数的に大きな共同行動のセットを考慮しなければならないため、現実的な探索予算の下での探索を著しく制限する。
我々は,対話誘導型提案規則を用いて低次元非線形表現上で代理誘導選択を行うことにより,マルチエージェントMCTSをトラクタブルに維持するNonZeroを提案する。
単エージェント偏差は予測利得でランク付けされ、二エージェント偏差は単エージェントが単独で改善できない場合でも協調効果を示す混合差測度によってスコア付けされる。
我々は,局所的偏差に対する帯域幅問題として候補提案を定式化し,共同作用空間を列挙することなく,近似グラフ局所最適点に到達するための線形局所回帰法であるNonZeroを導出する。
実験的に、NonZeroはMateGame、SMAC、SMACv2のサンプル効率と最終性能を、マッチングされた検索予算下での強力なモデルベースおよびモデルフリーベースラインと比較して改善する。
関連論文リスト
- Flickering Multi-Armed Bandits [7.465238700168576]
Flickering Multi-Armed Bandits (FMAB) は、利用可能なアーム(またはアクション)のセットを各ラウンドで変更できる新しいMABフレームワークである。
我々は、アームがノードであり、エージェントの動きが局所的に制限されるランダムグラフプロセスを用いて、制約付きで進化する可用性をモデル化する。
本アルゴリズムは,この問題クラスに対する情報理論的下界の整合性を確立することにより,ほぼ最適であることを示す。
論文 参考訳(メタデータ) (2026-02-19T12:24:01Z) - MALinZero: Efficient Low-Dimensional Search for Mastering Complex Multi-Agent Planning [8.28864605730277]
我々は,MALinZeroを提案する。これは,関節-作用リターンにおける低次元表現構造を活用するための新しいアプローチである。
MALinZeroは、行列ゲーム、SMAC、SMACv2のようなマルチエージェントベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-11-08T21:27:09Z) - On the optimal regret of collaborative personalized linear bandits [15.661920010658626]
本稿では,協調的パーソナライズされたリニアバンディットにおける最適後悔について検討する。
我々は,エージェント数,相互作用ラウンド,不均一性の程度が共に後悔にどう影響するかを特徴付ける情報理論の下限を提供する。
私たちの結果は、いつ、いつ、コラボレーションが最適な後悔の束縛でどのように役立つか、完全な特徴を与えます。
論文 参考訳(メタデータ) (2025-06-19T00:56:31Z) - Self-Localized Collaborative Perception [49.86110931859302]
我々は,新しい自己局在型協調認識システムであるMathttCoBEVGlue$を提案する。
$mathttCoBEVGlue$は、エージェント間の相対的なポーズを提供する新しい空間アライメントモジュールである。
$mathttCoBEVGlue$は任意のローカライゼーションノイズとアタックの下で最先端の検出性能を達成する。
論文 参考訳(メタデータ) (2024-06-18T15:26:54Z) - AffineGlue: Joint Matching and Robust Estimation [74.04609046690913]
AffineGlue, 連立2視点特徴マッチングとロバストな推定法を提案する。
AffineGlueは、最小限のモデルを推定するために、1対多の対応から潜在的なマッチを選択する。
ガイドマッチングはモデルと一致した一致を見つけるために使用され、1対1の一致の曖昧さに悩まされる。
論文 参考訳(メタデータ) (2023-07-28T08:05:36Z) - Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:53:12Z) - Cooperative Distribution Alignment via JSD Upper Bound [7.071749623370137]
教師なし分布アライメントは、2つ以上のソース分布を共有整列分布にマッピングする変換を推定する。
このタスクには、生成モデリング、教師なしドメイン適応、社会的に認識された学習など、多くの応用がある。
我々は,従来のフローベースアプローチを,単一の非逆数フレームワークで統一し,一般化することを提案する。
論文 参考訳(メタデータ) (2022-07-05T20:09:03Z) - Near-Optimal Collaborative Learning in Bandits [15.456561090871244]
本稿では,各エージェントが有限個のアームに対向する一般マルチエージェントバンディットモデルを提案する。
ツイストは、各エージェントの最適なアームは最大の混合報酬を持つアームであり、アームの混合報酬は全てのエージェントに対するこのアームの報酬の重み付けの和である。
純粋探索のための近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-31T21:11:47Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。