Fugu-MT 論文翻訳(概要): Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

論文の概要: Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

arxiv url: http://arxiv.org/abs/2603.09208v1
Date: Tue, 10 Mar 2026 05:24:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.055527
Title: Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation
Title（参考訳）: 線形関数近似を用いた戦略的ロバストなマルチエージェント強化学習
Authors: Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. Ratliff,
Abstract要約: 我々は,有界合理性とリスク感度の下で一意に滑らかな解が得られるリスク感応性量子応答平衡(RQRE)について検討した。この結果から,TextttRQRE-OVIは,Nashベースのアプローチに比べて,クロスプレイ時のより堅牢な動作を実現し,セルフプレイ時の競争性能が向上することを示す。
参考スコア（独自算出の注目度）: 20.112421867159053
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Provably efficient and robust equilibrium computation in general-sum Markov games remains a core challenge in multi-agent reinforcement learning. Nash equilibrium is computationally intractable in general and brittle due to equilibrium multiplicity and sensitivity to approximation error. We study Risk-Sensitive Quantal Response Equilibrium (RQRE), which yields a unique, smooth solution under bounded rationality and risk sensitivity. We propose \texttt{RQRE-OVI}, an optimistic value iteration algorithm for computing RQRE with linear function approximation in large or continuous state spaces. Through finite-sample regret analysis, we establish convergence and explicitly characterize how sample complexity scales with rationality and risk-sensitivity parameters. The regret bounds reveal a quantitative tradeoff: increasing rationality tightens regret, while risk sensitivity induces regularization that enhances stability and robustness. This exposes a Pareto frontier between expected performance and robustness, with Nash recovered in the limit of perfect rationality and risk neutrality. We further show that the RQRE policy map is Lipschitz continuous in estimated payoffs, unlike Nash, and RQRE admits a distributionally robust optimization interpretation. Empirically, we demonstrate that \texttt{RQRE-OVI} achieves competitive performance under self-play while producing substantially more robust behavior under cross-play compared to Nash-based approaches. These results suggest \texttt{RQRE-OVI} offers a principled, scalable, and tunable path for equilibrium learning with improved robustness and generalization.
Abstract（参考訳）: 一般のマルコフゲームにおける確率的効率的で堅牢な平衡計算は、マルチエージェント強化学習における中核的な課題である。ナッシュ平衡は一般に計算的に引き起こされ、平衡多重度と近似誤差に対する感度により不安定である。我々は,有界合理性とリスク感度の下で一意に滑らかな解が得られるリスク感応性量子応答平衡(RQRE)について検討した。大規模あるいは連続的な状態空間における線形関数近似を用いた RQRE 計算のための楽観的な値反復アルゴリズムである \texttt{RQRE-OVI} を提案する。有限サンプルの後悔分析を通じて、収束を確立し、有理性とリスク感受性パラメータを用いて、サンプルの複雑性がどのようにスケールするかを明確に特徴付ける。合理性の増加は後悔を和らげる一方、リスク感受性は安定性と堅牢性を高める正規化を誘導する。これにより、期待されるパフォーマンスと堅牢性の間のParetoフロンティアが露出し、Nashは完全な合理性とリスク中立性の限界で回復した。さらに、RQREポリシーマップは、ナッシュとは異なり、推定ペイオフにおいてリプシッツ連続であることが示され、RQREは分布的に堅牢な最適化解釈を認める。実験により, <texttt{RQRE-OVI} は, Nash をベースとした手法に比べて, クロスプレイ下でのより堅牢な動作を実現し, 自己再生時の競争性能が向上することが実証された。これらの結果から,‘texttt{RQRE-OVI} は,ロバスト性や一般化性を向上した平衡学習のための,原則付き,スケーラブルで,調整可能な経路を提供することが示唆された。

関連論文リスト

Provably Convergent Actor-Critic in Risk-averse MARL [15.77454427706097]
リスク逆量子応答平衡(RQE)は,リスク回避と有界有理性を含む行動ゲーム理論に根ざした解である。本稿では,高速なアクターと低速な批評家を特徴とする2段階のアクター・クライブアルゴリズムを提案する。
論文参考訳（メタデータ） (2026-02-12T20:29:41Z)
Robust Bayesian Dynamic Programming for On-policy Risk-sensitive Reinforcement Learning [4.71677151409532]
本稿では,過渡不確実性に対するロバスト性を含むリスク感応性強化学習のための新しい枠組みを提案する。本フレームワークは,内的リスク対策と外的リスク対策の両方に対して,一般的なコヒーレントリスク対策を許容することにより,既存のRLフレームワークを統一・一般化する。
論文参考訳（メタデータ） (2025-12-31T03:13:22Z)
Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文参考訳（メタデータ） (2025-10-09T04:48:49Z)
Zubov-Net: Adaptive Stability for Neural ODEs Reconciling Accuracy with Robustness [0.16355471507854133]
本稿ではZubovNetという適応型安定学習フレームワークを提案する。本稿では,PRoAsを直接最適化することで,ロアの形状を積極的に制御する新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-09-26T05:01:51Z)
Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化は損失関数に逆符号を持つ報酬項を導入する。スペクトル安全性条件と信頼領域制約を定式化する。我々は、プロジェクション演算子と勾配クリッピングを組み合わせた軽量な安全ガードを設計し、安定した介入を保証する。
論文参考訳（メタデータ） (2025-08-24T15:34:17Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Robust Adversarial Reinforcement Learning via Bounded Rationality Curricula [23.80052541774509]
敵強化学習は、競争力のあるゼロサムマルコフゲームにおいて、敵が行使する不安定化力に対する主人公を訓練する。ナッシュ平衡を見つけるには、複雑なサドル点最適化問題に直面する必要がある。本稿では,サドル点最適化問題の複雑性を軽減するために,エントロピー正則化に基づく対向RLの新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-03T00:00:32Z)
Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文参考訳（メタデータ） (2023-07-27T04:27:26Z)
PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文参考訳（メタデータ） (2023-03-02T05:08:15Z)
Fine-Grained Analysis of Stability and Generalization for Stochastic Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文参考訳（メタデータ） (2020-06-15T06:30:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。