論文の概要: Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.11942v4
- Date: Thu, 1 Jun 2023 22:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 20:47:07.771327
- Title: Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent
Reinforcement Learning
- Title(参考訳): Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning
- Authors: Matthias Gerstgrasser, David C. Parkes
- Abstract要約: マルチエージェントRL問題としてStackelberg equilibria Searchを実装するための一般的なフレームワークを提案する。
我々は、このフレームワークの特定のインスタンス化として、これまでのアプローチがどのように捉えられるかについて議論する。
- 参考スコア(独自算出の注目度): 24.284863599920115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stackelberg equilibria arise naturally in a range of popular learning
problems, such as in security games or indirect mechanism design, and have
received increasing attention in the reinforcement learning literature. We
present a general framework for implementing Stackelberg equilibria search as a
multi-agent RL problem, allowing a wide range of algorithmic design choices. We
discuss how previous approaches can be seen as specific instantiations of this
framework. As a key insight, we note that the design space allows for
approaches not previously seen in the literature, for instance by leveraging
multitask and meta-RL techniques for follower convergence. We propose one such
approach using contextual policies, and evaluate it experimentally on both
standard and novel benchmark domains, showing greatly improved sample
efficiency compared to previous approaches. Finally, we explore the effect of
adopting algorithm designs outside the borders of our framework.
- Abstract(参考訳): Stackelberg equilibriaは、セキュリティゲームや間接メカニズム設計など、さまざまな一般的な学習問題に自然に現れ、強化学習文学において注目を集めている。
本稿では,マルチエージェントRL問題としてStackelberg equilibria Searchを実装するための一般的なフレームワークを提案する。
このフレームワークの特定のインスタンス化として、これまでのアプローチがどのように考えられるかについて議論する。
重要な洞察として、設計空間は、例えば、マルチタスクとメタRL技術を利用して従者収束を図り、これまで文献になかったアプローチを可能にすることに留意する。
我々は,このような手法を文脈ポリシーを用いて提案し,標準領域と新しいベンチマーク領域の両方で実験的に評価し,従来の手法に比べてサンプル効率が大幅に向上したことを示す。
最後に,フレームワークの境界外におけるアルゴリズム設計の適用効果について検討する。
関連論文リスト
- Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling [48.78361527873024]
本稿では,2つの異なる手法の強みを組み込んだ手書き文字認識手法を提案する。
本稿では,アルゴリズムの収束を加速し,システム全体の性能を向上させるスペーシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2024-09-09T15:12:28Z) - A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms [7.081523472610874]
最適政策の直接学習を支援するための制御理論強化学習手法を考案する。
いくつかの古典的強化学習課題に対するアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2024-06-20T21:50:46Z) - Combinatorial Optimization with Policy Adaptation using Latent Space Search [44.12073954093942]
本稿では,複雑なNPハード問題を解くために,パフォーマンスアルゴリズムを設計するための新しいアプローチを提案する。
我々の検索戦略は11の標準ベンチマークタスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-13T12:24:54Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Understanding A Class of Decentralized and Federated Optimization
Algorithms: A Multi-Rate Feedback Control Perspective [41.05789078207364]
分散最適化アルゴリズムを理解し、分析し、設計するための新しい視点を提供する。
本稿では,分散化/分散化方式を含む分散アルゴリズムを,特定の連続時間フィードバック制御系を識別できることを示す。
論文 参考訳(メタデータ) (2022-04-27T01:53:57Z) - Multi-agent navigation based on deep reinforcement learning and
traditional pathfinding algorithm [0.0]
我々は,マルチエージェント衝突回避問題のための新しいフレームワークを開発する。
このフレームワークは、従来のパスフィニングアルゴリズムと強化学習を組み合わせたものだ。
我々のアプローチでは、エージェントはナビゲートするか、パートナーを避けるために簡単な行動をとるかを学ぶ。
論文 参考訳(メタデータ) (2020-12-05T08:56:58Z) - Reinforcement Learning as Iterative and Amortised Inference [62.997667081978825]
我々は、この制御を推論フレームワークとして使用し、償却および反復推論に基づく新しい分類スキームを概説する。
この観点から、比較的探索されていないアルゴリズム設計空間の一部を特定できることを示す。
論文 参考訳(メタデータ) (2020-06-13T16:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。