Fugu-MT 論文翻訳(概要): Approximate Multi-Agent Fitted Q Iteration

論文の概要: Approximate Multi-Agent Fitted Q Iteration

arxiv url: http://arxiv.org/abs/2104.09343v1
Date: Mon, 19 Apr 2021 14:30:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-20 13:26:03.498379
Title: Approximate Multi-Agent Fitted Q Iteration
Title（参考訳）: 近似マルチエージェント対応qイテレーション
Authors: Antoine Lesage-Landry and Duncan S. Callaway
Abstract要約: バッチ強化学習のための効率的な近似, 近似多エージェント適合Qイテレーション(AMAFQI)を策定する。各イテレーションおよびポリシー評価において、AMAFQIはエージェント数と線形にスケールする多数の計算を必要とし、一方、類似の計算数は適合Qイテレーション(FQI)において指数関数的に増加する。 AMAFQIの性能を評価し,数値シミュレーションでFQIと比較した。
参考スコア（独自算出の注目度）: 0.07031569227782807
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We formulate an efficient approximation for multi-agent batch reinforcement learning, the approximate multi-agent fitted Q iteration (AMAFQI). We present a detailed derivation of our approach. We propose an iterative policy search and show that it yields a greedy policy with respect to multiple approximations of the centralized, standard Q-function. In each iteration and policy evaluation, AMAFQI requires a number of computations that scales linearly with the number of agents whereas the analogous number of computations increase exponentially for the fitted Q iteration (FQI), one of the most commonly used approaches in batch reinforcement learning. This property of AMAFQI is fundamental for the design of a tractable multi-agent approach. We evaluate the performance of AMAFQI and compare it to FQI in numerical simulations. Numerical examples illustrate the significant computation time reduction when using AMAFQI instead of FQI in multi-agent problems and corroborate the similar decision-making performance of both approaches.
Abstract（参考訳）: 近似多エージェント適応Qイテレーション (AMAFQI) を用いて, 多エージェントバッチ強化学習のための効率的な近似式を定式化する。我々はこのアプローチの詳細な導出を示す。本稿では,反復的な方針探索を提案し,中央集権型標準q関数の複数の近似に関して欲望的な方針を与えることを示す。各イテレーションとポリシーの評価において、amafqiはエージェントの数と線形にスケールする多くの計算を必要とし、一方、類似の計算数はバッチ強化学習でよく使われるアプローチである適合qイテレーション(fqi)に対して指数関数的に増加する。 AMAFQIのこの性質は、トラクタブルなマルチエージェントアプローチの設計に基本的である。 AMAFQIの性能を評価し,数値シミュレーションでFQIと比較した。数値的な例は、FQIの代わりにAMAFQIを使用する場合の計算時間を大幅に削減し、両者の同様の意思決定性能を裏付けるものである。

関連論文リスト

Model-Based Learning of Whittle indices [5.830619388189558]
BLINQは、インデックス可能、通信可能、一本鎖のマルコフ決定プロセス(MDP)のWhittle指標を学習する新しいモデルベースのアルゴリズムである。 BLINQは、正確な近似を得るために必要となるサンプルの数で、既存のQ-ラーニングアプローチよりも大幅に優れています。総計算コストはQラーニングよりさらに低く、合理的に多くのサンプルがある。
論文参考訳（メタデータ） (2025-11-25T15:21:00Z)
The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。 WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文参考訳（メタデータ） (2025-07-16T06:41:03Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
Universal Approximation Theorem of Deep Q-Networks [2.1756081703276]
我々は制御とFBSDE(Forward-Backward Differential Equations)を通してDeep Q-Networks(DQN)の分析を行う。 DQN は任意の精度と高い確率でコンパクト集合上の最適Q-函数を近似できることを示す。この作業は、深い強化学習とコントロールをブリッジし、継続的設定でDQNに関する洞察を提供する。
論文参考訳（メタデータ） (2025-05-04T22:57:33Z)
Dual Ensembled Multiagent Q-Learning with Hypernet Regularizer [62.01554688056335]
マルチエージェント設定における過大評価は、比較的ほとんど注目されていない。本稿では,超ネットワーク重みとバイアスに関する新しいハイパーネット正規化器を提案し,オンライングローバルQ-ネットワークの最適化を制約し,過大な推定の蓄積を防止する。
論文参考訳（メタデータ） (2025-02-04T05:14:58Z)
Enhancing Question Answering Precision with Optimized Vector Retrieval and Instructions [1.2425910171551517]
質問応答 (QA) は情報検索 (IR) と言語モデルの重要な応用である。本稿では、最適化されたベクトル検索と命令手法を統合することにより、QAタスク性能を改善するための革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T21:14:04Z)
Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-31T16:53:20Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Fitted Q-Iteration via Max-Plus-Linear Approximation [0.0]
特に、これらの近似器を組み込んで、証明可能な収束性を持つ新しい適合Q-iteration(FQI)アルゴリズムを提案する。提案したFQIアルゴリズムの各イテレーションにおける最大余剰線形回帰は、単純な最大余剰行列ベクトル乗算に還元されることを示す。
論文参考訳（メタデータ） (2024-09-12T22:51:08Z)
DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文参考訳（メタデータ） (2024-03-25T22:49:56Z)
Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文参考訳（メタデータ） (2023-11-05T12:03:58Z)
Performance Prediction for Multi-hop Questions [7.388002745070808]
オープンドメイン型マルチホップ質問の性能を予測するための検索前手法であるmultHPを提案する。評価の結果,提案モデルが従来のシングルホップQPPモデルよりも優れた性能を示すことが示唆された。
論文参考訳（メタデータ） (2023-08-12T01:34:41Z)
An Empirical Comparison of LM-based Question and Answer Generation Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2023-05-26T14:59:53Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文参考訳（メタデータ） (2020-09-29T04:58:17Z)
Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文参考訳（メタデータ） (2020-06-02T09:32:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。