論文の概要: Distributed No-Regret Learning in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2002.09047v1
- Date: Thu, 20 Feb 2020 22:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 08:25:16.933316
- Title: Distributed No-Regret Learning in Multi-Agent Systems
- Title(参考訳): マルチエージェントシステムにおける分散no-regret学習
- Authors: Xiao Xu, Qing Zhao
- Abstract要約: 標準ゲームモデルに挑戦する4つの新興ゲーム特性について検討した。
これら4つの特徴のそれぞれについて,ゲームモデリング,後悔の概念,実現可能なゲーム結果,分散学習アルゴリズムの設計と解析を照らし出す。
- 参考スコア(独自算出の注目度): 12.111429383532888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this tutorial article, we give an overview of new challenges and
representative results on distributed no-regret learning in multi-agent systems
modeled as repeated unknown games. Four emerging game
characteristics---dynamicity, incomplete and imperfect feedback, bounded
rationality, and heterogeneity---that challenge canonical game models are
explored. For each of the four characteristics, we illuminate its implications
and ramifications in game modeling, notions of regret, feasible game outcomes,
and the design and analysis of distributed learning algorithms.
- Abstract(参考訳): 本稿では,未知ゲームを繰り返したマルチエージェントシステムにおける分散非回帰学習に関する新しい課題と代表的結果について概説する。
動的,不完全,不完全なフィードバック,有界的合理性,不均一性という4つの新たなゲーム特性を考察した。
これら4つの特徴のそれぞれについて,ゲームモデリング,後悔の概念,実現可能なゲーム結果,分散学習アルゴリズムの設計と解析を照らし出す。
関連論文リスト
- Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - Tractable Equilibrium Computation in Markov Games through Risk Aversion [12.980882140751895]
リスク-逆量子応答平衡(RQE)は,すべての$n$プレーヤ行列と有限ホリゾンマルコフゲームで計算可能であることを示す。
RQEは下層のゲーム構造とは独立であり、エージェントのリスク回避度と有界有理性にのみ依存する。
論文 参考訳(メタデータ) (2024-06-20T09:53:56Z) - CNN-based explanation ensembling for dataset, representation and explanations evaluation [1.1060425537315088]
畳み込みモデルを用いた深層分類モデルによる説明文の要約の可能性について検討する。
実験と分析を通じて、モデル行動のより一貫性と信頼性のあるパターンを明らかにするために、説明を組み合わせることの意味を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-04-16T08:39:29Z) - Unified View of Grokking, Double Descent and Emergent Abilities: A
Perspective from Circuits Competition [83.13280812128411]
近年の研究では、グラッキング、二重降下、大規模言語モデルにおける創発的能力など、ディープラーニングにおける興味深い現象が明らかにされている。
本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的な見方を提供する包括的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:14:36Z) - Stochastic Delay Differential Games: Financial Modeling and Machine
Learning Algorithms [3.222802562733787]
深層学習による遅延差分ゲームの閉ループナッシュ平衡を求める数値手法を提案する。
これらのゲームは、マルチエージェント相互作用と遅延効果がモデルでしばしば望まれる特徴である金融と経済学で広く使われている。
論文 参考訳(メタデータ) (2023-07-12T21:02:45Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - Independent Learning in Stochastic Games [16.505046191280634]
動的環境におけるマルチエージェント学習のためのゲームモデルを提案する。
ゲームのためのシンプルで独立した学習力学の開発に焦点をあてる。
我々は最近提案したゼロサムゲームにおける収束を保証する単純かつ独立な学習力学について述べる。
論文 参考訳(メタデータ) (2021-11-23T09:27:20Z) - Exploration-Exploitation in Multi-Agent Competition: Convergence with
Bounded Rationality [21.94743452608215]
本研究では,ゲーム報酬と探索費用のバランスを捉えたプロトタイプ学習モデルであるスムーズQ-ラーニングについて検討する。
Q-ラーニングは常に、有界な有理性の下でのゲームに対する標準的な解概念である一意の量子-応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2021-06-24T11:43:38Z) - Explainable Recommender Systems via Resolving Learning Representations [57.24565012731325]
説明はユーザー体験を改善し、システムの欠陥を発見するのに役立つ。
本稿では,表現学習プロセスの透明性を向上させることによって,説明可能な新しい推薦モデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T05:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。