論文の概要: On Stateful Value Factorization in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.15381v2
- Date: Mon, 9 Sep 2024 22:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 22:22:10.060346
- Title: On Stateful Value Factorization in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習におけるステートフル値分解について
- Authors: Enrico Marchesini, Andrea Baisero, Rupali Bhati, Christopher Amato,
- Abstract要約: そこで我々はDuelmixを紹介した。Duelmixは、各エージェント毎のユーティリティ推定器を学習し、性能を向上する。
StarCraft IIのマイクロマネジメントとBox Pushingタスクの実験は、私たちの直感の利点を示しています。
- 参考スコア(独自算出の注目度): 19.342676562701794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value factorization is a popular paradigm for designing scalable multi-agent reinforcement learning algorithms. However, current factorization methods make choices without full justification that may limit their performance. For example, the theory in prior work uses stateless (i.e., history) functions, while the practical implementations use state information -- making the motivating theory a mismatch for the implementation. Also, methods have built off of previous approaches, inheriting their architectures without exploring other, potentially better ones. To address these concerns, we formally analyze the theory of using the state instead of the history in current methods -- reconnecting theory and practice. We then introduce DuelMIX, a factorization algorithm that learns distinct per-agent utility estimators to improve performance and achieve full expressiveness. Experiments on StarCraft II micromanagement and Box Pushing tasks demonstrate the benefits of our intuitions.
- Abstract(参考訳): バリューファクタライゼーションは、スケーラブルなマルチエージェント強化学習アルゴリズムを設計するための一般的なパラダイムである。
しかし、現在の因数分解法は、その性能を制限するような完全な正当化なしに選択する。
例えば、先行研究における理論はステートレス(履歴)関数を使用し、実践的な実装ではステート情報を使用します -- モチベーション理論を実装のミスマッチにします。また、メソッドは以前のアプローチから作り出され、アーキテクチャを継承します。これらの懸念に対処するために、現在のメソッドの履歴ではなく、ステートを使用する理論を正式に分析します。理論と実践を再接続します。
次にDuelMIXを導入する。DuelMIXは、各エージェント毎のユーティリティ推定器を学習し、性能を改善し、完全な表現性を実現する。
StarCraft IIのマイクロマネジメントとBox Pushingタスクの実験は、私たちの直感の利点を示しています。
関連論文リスト
- ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - Efficient and Generalizable Certified Unlearning: A Hessian-free Recollection Approach [8.875278412741695]
機械学習は、特定のデータを選択的に忘れることを可能にして、データ所有者の権利を忘れないように努力する。
我々は,ベクトル加算操作のみを必要とするため,ほぼ瞬時に未学習を実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-04-02T07:54:18Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Are Good Explainers Secretly Human-in-the-Loop Active Learners? [0.0]
説明可能なAI(XAI)技術は、ここ数年で複数のユースケースで人気を集めている。
ここでは、モデル予測の研究において、追加のトレーニングデータ収集に使用することを検討する。
これは、クエリ戦略がヒューマン・イン・ザ・ループを含むアクティブ・ラーニングと等価である、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-24T10:50:42Z) - Model Predictive Control with Self-supervised Representation Learning [13.225264876433528]
本稿では,TD-MPCフレームワーク内での再構成機能の利用を提案する。
提案した損失項の追加は、状態ベースタスクと画像ベースタスクの両方のパフォーマンス改善につながる。
論文 参考訳(メタデータ) (2023-04-14T16:02:04Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - Revisiting Model-based Value Expansion [35.55280687116388]
モデルに基づく値展開手法は,値関数目標の品質向上と値関数学習の有効性を約束する。
しかし、これらの手法は、概念上より単純な1ステップの値関数ターゲットを持つDynaスタイルのアルゴリズムにより、これまでにも性能が向上している。
本研究は,実際に価値拡張手法の失敗の原因を明らかにするための,徹底的な実証的研究である。
論文 参考訳(メタデータ) (2022-03-28T11:21:49Z) - What can I do here? A Theory of Affordances in Reinforcement Learning [65.70524105802156]
我々はマルコフ決定過程の学習と計画を行うエージェントのための余裕の理論を開発する。
このケースでは、任意の状況で利用可能なアクションの数を減らすことで、アフォーダンスが二重の役割を担います。
本稿では,よりシンプルで一般化された遷移モデルを推定するために,余裕を学習し,それを利用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-26T16:34:53Z) - An Advance on Variable Elimination with Applications to Tensor-Based
Computation [11.358487655918676]
本稿では,確率的推論を含む多くのアルゴリズムの基盤となる可変除去の古典的アルゴリズムについて述べる。
結果は機能的依存関係の活用に関連しており、非常に大きなツリー幅を持つモデルで推論と学習を効率的に行うことができる。
論文 参考訳(メタデータ) (2020-02-21T14:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。