論文の概要: Multi-agent imitation learning with function approximation: Linear Markov games and beyond
- arxiv url: http://arxiv.org/abs/2602.22810v1
- Date: Thu, 26 Feb 2026 09:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.630638
- Title: Multi-agent imitation learning with function approximation: Linear Markov games and beyond
- Title(参考訳): 関数近似を用いたマルチエージェント模倣学習:線形マルコフゲーム以降
- Authors: Luca Viano, Till Freihaut, Emanuele Nevali, Volkan Cevher, Matthieu Geist, Giorgia Ramponi,
- Abstract要約: 線形マルコフゲームにおけるマルチエージェント模倣学習(MAIL)の第一理論解析について述べる。
本研究は,「全政策偏差集中係数」を特徴量で定義した集中係数に置き換えることが可能であることを示す。
我々は,Tic-Tac-Toe や Connect4 などのゲームにおいて,BC よりも明らかに優れる深いMAIL 対話型アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 63.14746189846806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present the first theoretical analysis of multi-agent imitation learning (MAIL) in linear Markov games where both the transition dynamics and each agent's reward function are linear in some given features. We demonstrate that by leveraging this structure, it is possible to replace the state-action level "all policy deviation concentrability coefficient" (Freihaut et al., arXiv:2510.09325) with a concentrability coefficient defined at the feature level which can be much smaller than the state-action analog when the features are informative about states' similarity. Furthermore, to circumvent the need for any concentrability coefficient, we turn to the interactive setting. We provide the first, computationally efficient, interactive MAIL algorithm for linear Markov games and show that its sample complexity depends only on the dimension of the feature map $d$. Building on these theoretical findings, we propose a deep MAIL interactive algorithm which clearly outperforms BC on games such as Tic-Tac-Toe and Connect4.
- Abstract(参考訳): 本研究では,遷移力学とエージェントの報酬関数の両方が与えられた特徴を持つ線形マルコフゲームにおいて,マルチエージェント模倣学習(MAIL)の最初の理論的解析を行う。
この構造を利用して、状態-作用レベル「全ての政策偏差集中係数」(Freihaut et al , arXiv:2510.09325)を特徴レベルで定義した集中係数に置き換えることが可能である。
さらに、任意の集中係数の必要性を回避するために、対話的な設定に目を向ける。
線形マルコフゲームのための計算効率の良い対話型MAILアルゴリズムを初めて提供し、そのサンプルの複雑さは特徴写像の次元$d$にのみ依存することを示した。
これらの理論的な結果に基づいて,Tic-Tac-Toe や Connect4 などのゲームにおいて,BC よりも明らかに優れる深いMAIL対話型アルゴリズムを提案する。
関連論文リスト
- Rate optimal learning of equilibria from data [63.14746189846806]
マルチエージェント・イミテーション・ラーニング(MAIL)における理論的ギャップは,非対話的MAILの限界を特徴づけ,ほぼ最適なサンプル複雑性を持つ最初の対話的アルゴリズムを提示することによって解決する。
インタラクティブな設定では、報酬のない強化学習と対話型MAILを組み合わせたフレームワークを導入し、それをMAIL-WARMというアルゴリズムでインスタンス化する。
我々は,我々の理論を裏付ける数値的な結果を提供し,グリッドワールドのような環境において,行動クローンが学習に失敗する状況を示す。
論文 参考訳(メタデータ) (2025-10-10T12:28:35Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Convergence of Decentralized Actor-Critic Algorithm in General-sum Markov Games [3.8779763612314633]
一般的なマルコフゲームにおける学習アルゴリズムの特性について検討する。
特に,各エージェントがアクター批判学習を動的に採用する分散アルゴリズムに着目した。
論文 参考訳(メタデータ) (2024-09-06T20:49:11Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - SPINE: Soft Piecewise Interpretable Neural Equations [0.0]
完全に接続されたネットワークはユビキタスだが解釈不能である。
本論文は,個々の部品に設定操作を施すことにより,ピースワイズに新しいアプローチを採っている(一部)。
完全に接続されたレイヤを解釈可能なレイヤに置き換えなければならない、さまざまなアプリケーションを見つけることができる。
論文 参考訳(メタデータ) (2021-11-20T16:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。