論文の概要: Episodic Memory Temporal Consistency for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.04492v1
- Date: Wed, 03 Jun 2026 06:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 07:07:40.45687
- Title: Episodic Memory Temporal Consistency for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調的多エージェント強化学習のためのエピソード記憶時間一貫性
- Authors: Zicheng Zhao, Yu Lan, Chengzhengxu Li, Zhaohan Zhang, Xiaoming Liu,
- Abstract要約: MARL(Cooperative Multi-Agent Reinforcement Learning)は、しばしば重度の報酬の分散と探索ボトルネックに悩まされる。
本稿では,歴史的経験をしっかりと構築し,選択的に活用するフレームワークであるEMTC(Epsodic Memory Temporal Consistency)を提案する。
EMTCは、超硬度SMACシナリオで最大24%の絶対勝利率改善を実現し、GRFタスク全体で平均28%の改善を実現している。
- 参考スコア(独自算出の注目度): 17.62926868585848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative Multi-Agent Reinforcement Learning (MARL) frequently suffers from severe reward sparsity and exploration bottlenecks. While episodic memory mechanisms mitigate these issues by reusing high-return trajectories, they often trap agents in local optima due to unconstrained incentive distribution and semantic representation collapse. To address this, we propose Episodic Memory Temporal Consistency (EMTC), a framework that robustly constructs and selectively leverages historical experiences. EMTC introduces two synergistic components: (1) a Temporally Consistent Semantic Embedder that integrates contrastive learning with time-conditioned state reconstruction, preventing representation collapse and enabling precise memory retrieval; and (2) a Temporal Consistency Gating Mechanism that dynamically modulates episodic incentives based on temporal consistency error. This adaptive gate filters misleading signals from pseudo-successful trajectories, effectively mitigating Q-value overestimation. We provide theoretical guarantees, establishing a strict error bound that directly links the observable temporal consistency error to the underlying trajectory optimality and representation quality. Extensive evaluations on the SMAC and GRF benchmarks demonstrate that EMTC consistently outperforms state-of-the-art baselines. Notably, compared to the strongest episodic baseline, EMTC achieves absolute win-rate improvements of up to 24% in super-hard SMAC scenarios and an average improvement of 28% across GRF tasks.
- Abstract(参考訳): MARL(Cooperative Multi-Agent Reinforcement Learning)は、しばしば重度の報酬の分散と探索ボトルネックに悩まされる。
エピソード記憶機構は、ハイリターントラジェクトリを再利用することでこれらの問題を緩和するが、制約のないインセンティブ分布と意味表現の崩壊により、しばしば局所的最適なエージェントをトラップする。
これを解決するために,歴史的経験をしっかりと構築し,選択的に活用するフレームワークであるEMTC(Epsodic Memory Temporal Consistency)を提案する。
EMTCは, 時間的コントラスト学習と時間的条件による状態再構成を統合し, 表現の崩壊を防止し, 正確な記憶検索を可能にするテンポラル・コントラスト・セマンティック・エンベッドダ, テンポラル・インセンティブを動的に変調するテンポラル・コントラスト・ゲーティング機構の2つの相乗的要素を導入している。
この適応ゲートフィルタは、疑似簡潔な軌跡からの誤解を招く信号をフィルタし、Q値過大評価を効果的に軽減する。
我々は、観測可能な時間的整合性エラーと、下層の軌道最適性と表現品質とを直接リンクする厳密な誤差境界を確立する理論的保証を提供する。
SMAC と GRF のベンチマークによる大規模な評価は、EMTC が最先端のベースラインを一貫して上回っていることを示している。
特に、最強のエピソードベースラインと比較して、EMTCは超硬度SMACシナリオで最大24%、GRFタスクで平均28%の絶対勝利率改善を実現している。
関連論文リスト
- Decoupled Delay Compensation: Enhancing Pre-trained MARL Policies via Learned Dynamics Filtering [2.0223202343873226]
実世界のマルチエージェント強化学習(MARL)システムは、しばしば古い観測、通信遅延、断続パケット損失の下で運用されなければならない。
本稿では,遅延通信観測を現在の信念状態推定に置き換えるモジュール型実行ステージ状態推定層を提案する。
論文 参考訳(メタデータ) (2026-05-25T19:19:46Z) - Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration [72.0672328514289]
マルチモーダル学習は、しばしば低品質データの課題に悩まされる。
コンフォーマル予測自己校正(Conformal Predictive Self-Calibration)と呼ばれる統合フレームワークを提案する。
私たちのフレームワークは、既存の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-05T14:48:52Z) - Taming the Instability: A Robust Second-Order Optimizer for Federated Learning over Non-IID Data [77.19117648492104]
We present Federated Robust Curvature Optimization (FedRCO), a novel second-order optimization framework designed to improve convergence speed and reduce communication cost。
FedRCOは、効率的な近似曲率と証明可能な安定性メカニズムを統合することで、これらの課題に対処する。
我々は,FedRCOが,最先端の1次法と2次法のどちらよりも高い精度と高速な収束を実現しつつ,多種多様な非IIDシナリオに対して優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2026-03-30T11:37:46Z) - Dual-Gated Epistemic Time-Dilation: Autonomous Compute Modulation in Asynchronous MARL [0.0]
MARL(Multi-Agent Reinforcement Learning)アルゴリズムは、複雑な連続したドメインをまたいだ前例のない成功を達成する。
標準のデプロイメントは、同期運用パラダイムに厳密に準拠する。
この高密度スループットは、熱的および代謝的予算が極めて制約されたエッジデバイス上での物理的展開の基本的な障壁として機能する。
本稿では, 心電図を用いた心電図を用いた心電図(ETD-MAPPO)を提案する。
論文 参考訳(メタデータ) (2026-03-24T21:19:06Z) - A Representation-Consistent Gated Recurrent Framework for Robust Medical Time-Series Classification [0.0]
隠れ状態表現における時間的一貫性を強制する規則化された正規化戦略を導入するための表現一貫性を持つゲートリカレントフレームワーク(RC-GRF)を提案する。
提案するフレームワークはモデルに依存しないため,内部ゲーティング機構を変更することなく,既存のゲート型リカレントアーキテクチャに統合することができる。
論文 参考訳(メタデータ) (2026-02-10T17:16:49Z) - Parallel BiLSTM-Transformer networks for forecasting chaotic dynamics [24.960864709838436]
本研究では,Transformer と Bidirectional Long Short-Term Memory Network を統合した並列予測フレームワークを提案する。
提案したハイブリッドモデルはデュアルブランチアーキテクチャを採用しており、Transformerブランチは主に長距離依存関係をキャプチャする。
結果は、提案されたハイブリッドフレームワークがタスク間でシングルブランチアーキテクチャの両方より優れていることを一貫して示している。
論文 参考訳(メタデータ) (2025-10-27T16:17:10Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization [23.328511708942045]
Heterogeneity-Aware Distributional Framework (HDF) は、時間周波数モデリングを強化し、ハードサンプルによる不均衡を軽減するために設計された。
時間周波数分散アテンションモジュール(DAM)は、時間的一貫性と周波数ロバスト性の両方をキャプチャする。
適応最適化モジュール 分散対応スケーリングモジュール (DSM) は、動的に分類と対照的な損失のバランスをとるために導入された。
論文 参考訳(メタデータ) (2025-07-21T16:21:47Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。