論文の概要: Approximate Multi-Agent Fitted Q Iteration
- arxiv url: http://arxiv.org/abs/2104.09343v1
- Date: Mon, 19 Apr 2021 14:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:26:03.498379
- Title: Approximate Multi-Agent Fitted Q Iteration
- Title(参考訳): 近似マルチエージェント対応qイテレーション
- Authors: Antoine Lesage-Landry and Duncan S. Callaway
- Abstract要約: バッチ強化学習のための効率的な近似, 近似多エージェント適合Qイテレーション(AMAFQI)を策定する。
各イテレーションおよびポリシー評価において、AMAFQIはエージェント数と線形にスケールする多数の計算を必要とし、一方、類似の計算数は適合Qイテレーション(FQI)において指数関数的に増加する。
AMAFQIの性能を評価し,数値シミュレーションでFQIと比較した。
- 参考スコア(独自算出の注目度): 0.07031569227782807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We formulate an efficient approximation for multi-agent batch reinforcement
learning, the approximate multi-agent fitted Q iteration (AMAFQI). We present a
detailed derivation of our approach. We propose an iterative policy search and
show that it yields a greedy policy with respect to multiple approximations of
the centralized, standard Q-function. In each iteration and policy evaluation,
AMAFQI requires a number of computations that scales linearly with the number
of agents whereas the analogous number of computations increase exponentially
for the fitted Q iteration (FQI), one of the most commonly used approaches in
batch reinforcement learning. This property of AMAFQI is fundamental for the
design of a tractable multi-agent approach. We evaluate the performance of
AMAFQI and compare it to FQI in numerical simulations. Numerical examples
illustrate the significant computation time reduction when using AMAFQI instead
of FQI in multi-agent problems and corroborate the similar decision-making
performance of both approaches.
- Abstract(参考訳): 近似多エージェント適応Qイテレーション (AMAFQI) を用いて, 多エージェントバッチ強化学習のための効率的な近似式を定式化する。
我々はこのアプローチの詳細な導出を示す。
本稿では,反復的な方針探索を提案し,中央集権型標準q関数の複数の近似に関して欲望的な方針を与えることを示す。
各イテレーションとポリシーの評価において、amafqiはエージェントの数と線形にスケールする多くの計算を必要とし、一方、類似の計算数はバッチ強化学習でよく使われるアプローチである適合qイテレーション(fqi)に対して指数関数的に増加する。
AMAFQIのこの性質は、トラクタブルなマルチエージェントアプローチの設計に基本的である。
AMAFQIの性能を評価し,数値シミュレーションでFQIと比較した。
数値的な例は、FQIの代わりにAMAFQIを使用する場合の計算時間を大幅に削減し、両者の同様の意思決定性能を裏付けるものである。
関連論文リスト
- An Empirical Investigation of Value-Based Multi-objective Reinforcement
Learning for Stochastic Environments [1.26404863283601]
本稿では、値ベースMORL Q-learningアルゴリズムがSER-Optimal Policyを学習する頻度に影響を与える要因について検討する。
これらのアルゴリズムの安定性と収束性に対するノイズQ値推定問題の重大な影響を強調した。
論文 参考訳(メタデータ) (2024-01-06T08:43:08Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Performance Prediction for Multi-hop Questions [7.388002745070808]
オープンドメイン型マルチホップ質問の性能を予測するための検索前手法であるmultHPを提案する。
評価の結果,提案モデルが従来のシングルホップQPPモデルよりも優れた性能を示すことが示唆された。
論文 参考訳(メタデータ) (2023-08-12T01:34:41Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Towards Multi-Agent Reinforcement Learning using Quantum Boltzmann
Machines [2.015864965523243]
我々は、より困難な問題を解決するために、オリジナルの概念の拡張を提案する。
我々は、経験的なリプレイバッファを追加し、ターゲットとポリシーの値を近似するために異なるネットワークを使用します。
量子サンプリングは、強化学習タスクには有望な方法であることが証明されているが、現在はQPUサイズによって制限されている。
論文 参考訳(メタデータ) (2021-09-22T17:59:24Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - AdaVol: An Adaptive Recursive Volatility Prediction Method [0.0]
一般条件付きヘテロセダスティック時系列モデルにおけるQML手順の収束特性について検討する。
ストリーミングのフレームワークに拡張された古典的なバッチ最適化ルーチンと大規模問題について述べる。
論文 参考訳(メタデータ) (2020-06-03T07:28:31Z) - Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文 参考訳(メタデータ) (2020-06-02T09:32:48Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。