Fugu-MT 論文翻訳(概要): Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning

論文の概要: Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2210.11942v1
Date: Wed, 19 Oct 2022 23:04:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 14:07:24.795526
Title: Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning
Title（参考訳）: Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning
Authors: Matthias Gerstgrasser, David C. Parkes
Abstract要約: マルチエージェントRL問題としてStackelberg Equilibria検索を実装するための一般的なフレームワークを提案する。我々は、このフレームワークの特定のインスタンス化として、これまでのアプローチがどのように捉えられるかについて議論する。我々は、標準ベンチマークドメイン上で実験的にフレームワークによって予測される新しいアプローチの例を評価する。
参考スコア（独自算出の注目度）: 24.284863599920115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stackelberg Equilibria arise naturally in a range of popular learning problems, such as in security games or automated mechanism design, and have received increasing attention in the reinforcement learning literature recently. We present a general framework for implementing Stackelberg Equilibria search as a multi-agent RL problem, allowing a wide range of design choices. We discuss how previous approaches can be seen as specific instantiations of this framework. As a key insight, we note that the design space allows for approaches not previously seen in the literature, for instance by leveraging multitask and meta-RL techniques for follower convergence. We evaluate examples of novel approaches predicted by our framework experimentally on standard benchmark domains. Finally, we discuss directions for future work implied by our work.
Abstract（参考訳）: Stackelberg Equilibriaは、セキュリティゲームや自動メカニズム設計など、さまざまな一般的な学習問題に自然に現れ、近年、強化学習文学において注目を集めている。本稿では,マルチエージェントRL問題としてStackelberg Equilibria検索を実装するための汎用フレームワークを提案する。このフレームワークの特定のインスタンス化として、これまでのアプローチがどのように考えられるかについて議論する。重要な洞察として、設計空間は、例えば、マルチタスクとメタRL技術を利用して従者収束を図り、これまで文献になかったアプローチを可能にすることに留意する。標準ベンチマークドメインで実験的に予測した新しいアプローチの例を評価する。最後に,今後の作業の方向性について考察する。

関連論文リスト

Latent Guided Sampling for Combinatorial Optimization [3.636090511738153]
最近の組合せ最適化手法は、深層学習を利用して解法戦略を学習し、監視学習または強化学習(RL)を通して訓練されている。有望ではあるが、これらのアプローチは多くの場合、タスク固有の拡張に依存し、配布外のインスタンスではパフォーマンスが悪く、堅牢な推論機構が欠如している。本稿では,効率的な問題インスタンスを条件づけた新しい潜在空間モデルLGS-Netを提案するとともに,効率的なニューラル推論手法であるLatent Guided Sampling(LGS)を提案する。
論文参考訳（メタデータ） (2025-06-04T08:02:59Z)
Demystifying Online Clustering of Bandits: Enhanced Exploration Under Stochastic and Smoothed Adversarial Contexts [27.62165569135504]
バンディットのオンラインクラスタリングとして知られる一連の研究は、類似のユーザをクラスタにグループ化することで、コンテキストMABを拡張している。既存のアルゴリズムは、上位信頼境界(UCB)戦略に依存しており、未知のユーザクラスタを正確に識別するために十分な統計情報を集めるのに苦労している。クラスタ識別を高速化する探索機構を改良した,UniCLUB と PhaseUniCLUB の2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-01T16:38:29Z)
Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文参考訳（メタデータ） (2024-09-11T17:01:06Z)
Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling [48.78361527873024]
本稿では,2つの異なる手法の強みを組み込んだ手書き文字認識手法を提案する。本稿では,アルゴリズムの収束を加速し,システム全体の性能を向上させるスペーシフィケーション手法を提案する。
論文参考訳（メタデータ） (2024-09-09T15:12:28Z)
POGEMA: A Benchmark Platform for Cooperative Multi-Agent Pathfinding [76.67608003501479]
POGEMAは、学習のための高速環境、問題インスタンスジェネレータ、可視化ツールキットを含む、総合的なツールセットである。また、プライマリ評価指標に基づいて計算されるドメイン関連メトリクスの範囲を規定する評価プロトコルを導入し、定義する。この比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含む。
論文参考訳（メタデータ） (2024-07-20T16:37:21Z)
A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms [7.081523472610874]
最適政策の直接学習を支援するための制御理論強化学習手法を考案する。いくつかの古典的強化学習課題に対するアプローチを実証的に評価した。
論文参考訳（メタデータ） (2024-06-20T21:50:46Z)
Combinatorial Optimization with Policy Adaptation using Latent Space Search [44.12073954093942]
本稿では,複雑なNPハード問題を解くために,パフォーマンスアルゴリズムを設計するための新しいアプローチを提案する。我々の検索戦略は11の標準ベンチマークタスクにおける最先端のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2023-11-13T12:24:54Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-30T17:59:16Z)
Understanding A Class of Decentralized and Federated Optimization Algorithms: A Multi-Rate Feedback Control Perspective [41.05789078207364]
分散最適化アルゴリズムを理解し、分析し、設計するための新しい視点を提供する。本稿では,分散化/分散化方式を含む分散アルゴリズムを,特定の連続時間フィードバック制御系を識別できることを示す。
論文参考訳（メタデータ） (2022-04-27T01:53:57Z)
Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm [0.0]
我々は,マルチエージェント衝突回避問題のための新しいフレームワークを開発する。このフレームワークは、従来のパスフィニングアルゴリズムと強化学習を組み合わせたものだ。我々のアプローチでは、エージェントはナビゲートするか、パートナーを避けるために簡単な行動をとるかを学ぶ。
論文参考訳（メタデータ） (2020-12-05T08:56:58Z)
Reinforcement Learning as Iterative and Amortised Inference [62.997667081978825]
我々は、この制御を推論フレームワークとして使用し、償却および反復推論に基づく新しい分類スキームを概説する。この観点から、比較的探索されていないアルゴリズム設計空間の一部を特定できることを示す。
論文参考訳（メタデータ） (2020-06-13T16:10:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。