論文の概要: Approximated Multi-Agent Fitted Q Iteration
- arxiv url: http://arxiv.org/abs/2104.09343v5
- Date: Wed, 5 Apr 2023 00:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 16:52:17.268904
- Title: Approximated Multi-Agent Fitted Q Iteration
- Title(参考訳): 近似マルチエージェント適合qイテレーション
- Authors: Antoine Lesage-Landry and Duncan S. Callaway
- Abstract要約: バッチ強化学習のための効率的な近似式AMAFQIを定式化する。
AMAFQIはエージェント数と線形にスケールする多数の計算を必要とするのに対し、類似の計算数は適合Qイテレーション(FQI)において指数関数的に増加することを示す。
- 参考スコア(独自算出の注目度): 0.046877128185218706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We formulate an efficient approximation for multi-agent batch reinforcement
learning, the approximated multi-agent fitted Q iteration (AMAFQI). We present
a detailed derivation of our approach. We propose an iterative policy search
and show that it yields a greedy policy with respect to multiple approximations
of the centralized, learned Q-function. In each iteration and policy
evaluation, AMAFQI requires a number of computations that scales linearly with
the number of agents whereas the analogous number of computations increase
exponentially for the fitted Q iteration (FQI), a commonly used approaches in
batch reinforcement learning. This property of AMAFQI is fundamental for the
design of a tractable multi-agent approach. We evaluate the performance of
AMAFQI and compare it to FQI in numerical simulations. The simulations
illustrate the significant computation time reduction when using AMAFQI instead
of FQI in multi-agent problems and corroborate the similar performance of both
approaches.
- Abstract(参考訳): 多エージェントバッチ強化学習(AMAFQI)の効率的な近似式を定式化する。
我々はこのアプローチの詳細な導出を示す。
本稿では,反復的な方針探索を提案し,集中型学習q関数の複数の近似に関して欲望的な方針を与えることを示す。
各イテレーションとポリシーの評価において、amafqiはエージェントの数と線形にスケールする多くの計算を必要とするが、類似した計算数はバッチ強化学習でよく使われるqイテレーション(fqi)に対して指数関数的に増加する。
AMAFQIのこの性質は、トラクタブルなマルチエージェントアプローチの設計に基本的である。
AMAFQIの性能を評価し,数値シミュレーションでFQIと比較した。
シミュレーションでは、FQIの代わりにAMAFQIを使用する場合の計算時間を大幅に削減し、両者の類似性能を相関させる。
関連論文リスト
- Enhancing Question Answering Precision with Optimized Vector Retrieval and Instructions [1.2425910171551517]
質問応答 (QA) は情報検索 (IR) と言語モデルの重要な応用である。
本稿では、最適化されたベクトル検索と命令手法を統合することにより、QAタスク性能を改善するための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:14:04Z) - Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Fitted Q-Iteration via Max-Plus-Linear Approximation [0.0]
特に、これらの近似器を組み込んで、証明可能な収束性を持つ新しい適合Q-iteration(FQI)アルゴリズムを提案する。
提案したFQIアルゴリズムの各イテレーションにおける最大余剰線形回帰は、単純な最大余剰行列ベクトル乗算に還元されることを示す。
論文 参考訳(メタデータ) (2024-09-12T22:51:08Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Performance Prediction for Multi-hop Questions [7.388002745070808]
オープンドメイン型マルチホップ質問の性能を予測するための検索前手法であるmultHPを提案する。
評価の結果,提案モデルが従来のシングルホップQPPモデルよりも優れた性能を示すことが示唆された。
論文 参考訳(メタデータ) (2023-08-12T01:34:41Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文 参考訳(メタデータ) (2020-06-02T09:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。