論文の概要: On Stateful Value Factorization in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.15381v2
- Date: Mon, 9 Sep 2024 22:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 22:22:10.060346
- Title: On Stateful Value Factorization in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習におけるステートフル値分解について
- Authors: Enrico Marchesini, Andrea Baisero, Rupali Bhati, Christopher Amato,
- Abstract要約: そこで我々はDuelmixを紹介した。Duelmixは、各エージェント毎のユーティリティ推定器を学習し、性能を向上する。
StarCraft IIのマイクロマネジメントとBox Pushingタスクの実験は、私たちの直感の利点を示しています。
- 参考スコア(独自算出の注目度): 19.342676562701794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value factorization is a popular paradigm for designing scalable multi-agent reinforcement learning algorithms. However, current factorization methods make choices without full justification that may limit their performance. For example, the theory in prior work uses stateless (i.e., history) functions, while the practical implementations use state information -- making the motivating theory a mismatch for the implementation. Also, methods have built off of previous approaches, inheriting their architectures without exploring other, potentially better ones. To address these concerns, we formally analyze the theory of using the state instead of the history in current methods -- reconnecting theory and practice. We then introduce DuelMIX, a factorization algorithm that learns distinct per-agent utility estimators to improve performance and achieve full expressiveness. Experiments on StarCraft II micromanagement and Box Pushing tasks demonstrate the benefits of our intuitions.
- Abstract(参考訳): バリューファクタライゼーションは、スケーラブルなマルチエージェント強化学習アルゴリズムを設計するための一般的なパラダイムである。
しかし、現在の因数分解法は、その性能を制限するような完全な正当化なしに選択する。
例えば、先行研究における理論はステートレス(履歴)関数を使用し、実践的な実装ではステート情報を使用します -- モチベーション理論を実装のミスマッチにします。また、メソッドは以前のアプローチから作り出され、アーキテクチャを継承します。これらの懸念に対処するために、現在のメソッドの履歴ではなく、ステートを使用する理論を正式に分析します。理論と実践を再接続します。
次にDuelMIXを導入する。DuelMIXは、各エージェント毎のユーティリティ推定器を学習し、性能を改善し、完全な表現性を実現する。
StarCraft IIのマイクロマネジメントとBox Pushingタスクの実験は、私たちの直感の利点を示しています。
関連論文リスト
- BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Assisting Mathematical Formalization with A Learning-based Premise Retriever [29.06255449960557]
本稿では,数学の形式化を支援するために,前提レトリバーを訓練する革新的な手法を提案する。
我々のアプローチでは、証明状態と前提を共有潜在空間に埋め込むためにBERTモデルを採用しています。
形式化プロセスの合理化を図り,証明状態を用いてMathlibの定理を直接問合せできる検索エンジンをリリースする。
論文 参考訳(メタデータ) (2025-01-21T06:32:25Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Model Predictive Control with Self-supervised Representation Learning [13.225264876433528]
本稿では,TD-MPCフレームワーク内での再構成機能の利用を提案する。
提案した損失項の追加は、状態ベースタスクと画像ベースタスクの両方のパフォーマンス改善につながる。
論文 参考訳(メタデータ) (2023-04-14T16:02:04Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - Revisiting Model-based Value Expansion [35.55280687116388]
モデルに基づく値展開手法は,値関数目標の品質向上と値関数学習の有効性を約束する。
しかし、これらの手法は、概念上より単純な1ステップの値関数ターゲットを持つDynaスタイルのアルゴリズムにより、これまでにも性能が向上している。
本研究は,実際に価値拡張手法の失敗の原因を明らかにするための,徹底的な実証的研究である。
論文 参考訳(メタデータ) (2022-03-28T11:21:49Z) - What can I do here? A Theory of Affordances in Reinforcement Learning [65.70524105802156]
我々はマルコフ決定過程の学習と計画を行うエージェントのための余裕の理論を開発する。
このケースでは、任意の状況で利用可能なアクションの数を減らすことで、アフォーダンスが二重の役割を担います。
本稿では,よりシンプルで一般化された遷移モデルを推定するために,余裕を学習し,それを利用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-26T16:34:53Z) - An Advance on Variable Elimination with Applications to Tensor-Based
Computation [11.358487655918676]
本稿では,確率的推論を含む多くのアルゴリズムの基盤となる可変除去の古典的アルゴリズムについて述べる。
結果は機能的依存関係の活用に関連しており、非常に大きなツリー幅を持つモデルで推論と学習を効率的に行うことができる。
論文 参考訳(メタデータ) (2020-02-21T14:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。