Fugu-MT 論文翻訳(概要): Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning

論文の概要: Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning

arxiv url: http://arxiv.org/abs/2602.21020v1
Date: Tue, 24 Feb 2026 15:38:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.818895
Title: Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning
Title（参考訳）: 複数専門家のマッチング:マルチエージェント模倣学習の爆発性について
Authors: Antoine Bergerault, Volkan Cevher, Negar Mehr,
Abstract要約: マルチエージェント模倣学習(MA-IL)は、マルチエージェント対話ドメインにおけるインタラクションのエキスパートによる実証から最適なポリシーを学ぶことを目的としている。学習したポリシのパフォーマンスに関する保証は存在するが、オフラインMA-ILでは、学習した警察がナッシュ均衡からどこまで離れているかの特徴が欠落している。
参考スコア（独自算出の注目度）: 51.77462571479799
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-agent imitation learning (MA-IL) aims to learn optimal policies from expert demonstrations of interactions in multi-agent interactive domains. Despite existing guarantees on the performance of the resulting learned policies, characterizations of how far the learned polices are from a Nash equilibrium are missing for offline MA-IL. In this paper, we demonstrate impossibility and hardness results of learning low-exploitable policies in general $n$-player Markov Games. We do so by providing examples where even exact measure matching fails, and demonstrating a new hardness result on characterizing the Nash gap given a fixed measure matching error. We then show how these challenges can be overcome using strategic dominance assumptions on the expert equilibrium. Specifically, for the case of dominant strategy expert equilibria, assuming Behavioral Cloning error $ε_{\text{BC}}$, this provides a Nash imitation gap of $\mathcal{O}\left(nε_{\text{BC}}/(1-γ)^2\right)$ for a discount factor $γ$. We generalize this result with a new notion of best-response continuity, and argue that this is implicitly encouraged by standard regularization techniques.
Abstract（参考訳）: マルチエージェント模倣学習(MA-IL)は、マルチエージェント対話ドメインにおけるインタラクションのエキスパートによる実証から最適なポリシーを学ぶことを目的としている。学習したポリシのパフォーマンスに関する保証は存在するが、オフラインMA-ILでは、学習した警察がナッシュ均衡からどこまで離れているかの特徴が欠落している。本稿では,一般に$n$-player Markov Gamesで低爆発性ポリシーを学習する際の不可能性と難易度について述べる。我々は、正確な測度マッチングが失敗する例を提供し、固定された測度マッチング誤差を与えられたナッシュギャップを特徴づける新しい硬度結果を示す。次に、これらの課題を専門家均衡に関する戦略的優位性仮定を用いて克服する方法を示す。具体的には、支配的戦略専門家平衡の場合、振舞いクローン誤差$ε_{\text{BC}}$を仮定すると、これは割引係数$γ$に対して$\mathcal{O}\left(nε_{\text{BC}}/(1-γ)^2\right)$のナッシュ模倣ギャップを提供する。我々は、この結果を、最も応答性の高い連続性という新しい概念で一般化し、これは標準正規化手法によって暗黙的に奨励されていると論じる。

関連論文リスト

Statistical analysis of Inverse Entropy-regularized Reinforcement Learning [15.054399128586232]
逆強化学習は、状態-作用対の軌跡を通して観察される専門家の行動を説明する報酬関数を推論することを目的としている。多くの報酬関数は同じ最適ポリシーを導き出すことができ、逆問題に悪影響を及ぼす。 Inverse Entropy-regularized Reinforcement Learningのための統計フレームワークを開発する。
論文参考訳（メタデータ） (2025-12-07T18:26:19Z)
Inverse Q-Learning Done Right: Offline Imitation Learning in $Q^π$-Realizable MDPs [16.69532546126409]
マルコフ決定過程(MDP)におけるオフライン模倣学習の問題点について検討する。サドルポイントオフライン模倣学習(SPOIL)と呼ばれる新しいアルゴリズムを導入する。 SPOILは動作のクローンよりも優れ、最先端のアルゴリズムと競合する。
論文参考訳（メタデータ） (2025-05-26T13:10:27Z)
Accelerating Nash Learning from Human Feedback via Mirror Prox [36.04055906691423]
オンラインNLHFアルゴリズムであるNash Mirror Prox(mathtNash-MP$)を導入する。我々の理論的解析により、ナッシュ-MPは、$beta$-regularized Nash平衡に対して、最終点の線形収束を示すことが証明された。また,Nash-MPは,利用可能性ギャップと対数確率の半ノルムの均一性に対して,最終等級の線形収束を示すことを示した。
論文参考訳（メタデータ） (2025-05-26T09:17:32Z)
Multi-Agent Inverse Q-Learning from Demonstrations [3.4136908117644698]
Multi-Agent Marginal Q-Learning from Demonstrations (MAMQL)は、マルチエージェントIRLのための新しいサンプル効率フレームワークである。 MAMQLは,従来のマルチエージェント手法よりも平均報酬率,サンプル効率,報酬回復率を2～5倍に向上させることを示した。
論文参考訳（メタデータ） (2025-03-06T18:22:29Z)
Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文参考訳（メタデータ） (2025-02-09T22:14:45Z)
A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文参考訳（メタデータ） (2023-06-12T23:48:24Z)
LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning [30.4251858001151]
暗黙の報酬関数の2乗ノルム正規化は有効であるが、アルゴリズムの結果の性質に関する理論的解析は提供されない。我々の手法であるLast Squares Inverse Q-Learningは、特に吸収状態の環境において、最先端のアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-01T15:46:12Z)
Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文参考訳（メタデータ） (2022-08-22T17:24:55Z)
Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文参考訳（メタデータ） (2021-02-13T12:57:51Z)
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文参考訳（メタデータ） (2020-07-15T03:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。