論文の概要: Decoupled Delay Compensation: Enhancing Pre-trained MARL Policies via Learned Dynamics Filtering
- arxiv url: http://arxiv.org/abs/2605.26286v1
- Date: Mon, 25 May 2026 19:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.378412
- Title: Decoupled Delay Compensation: Enhancing Pre-trained MARL Policies via Learned Dynamics Filtering
- Title(参考訳): Decoupled Delay Compensation: Learned Dynamics Filteringによる事前学習型MARLポリシーの強化
- Authors: Maxim Mednikov, Oren Gal,
- Abstract要約: 実世界のマルチエージェント強化学習(MARL)システムは、しばしば古い観測、通信遅延、断続パケット損失の下で運用されなければならない。
本稿では,遅延通信観測を現在の信念状態推定に置き換えるモジュール型実行ステージ状態推定層を提案する。
- 参考スコア(独自算出の注目度): 2.0223202343873226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world multi-agent reinforcement learning (MARL) systems must often operate under stale observations, stochastic communication delays, and intermittent packet loss. Policies trained under idealized synchronous conditions frequently exhibit significant performance degradation in these regimes because they act on outdated feedback. We propose a modular execution-stage state-estimation layer that replaces delayed communicated observations with current belief-state estimates. The framework integrates a learned Gated transition model with a recursive Kalman filtering layer to estimate instantaneous states from asynchronous measurements. A primary advantage of this approach is its modularity, The estimator serves as a plug-in for pre-trained policies, requiring no modifications to the original MARL training algorithm, architecture, or reward structure. Evaluation across diverse multi-agent and continuous-control benchmarks demonstrates that the proposed layer consistently enhances robustness to communication latency and message loss. The most significant performance gains are observed in coordination-intensive and dynamically unstable tasks where temporal consistency is critical for control.
- Abstract(参考訳): 実世界のマルチエージェント強化学習(MARL)システムは、しばしば古い観測、確率的通信遅延、断続的なパケット損失の下で運用されなければならない。
理想的な同期条件下で訓練されたポリシーは、時代遅れのフィードバックを実行するため、これらのレジームにおいて大きなパフォーマンス劣化を示すことが多い。
本稿では,遅延通信観測を現在の信念状態推定に置き換えるモジュール型実行ステージ状態推定層を提案する。
このフレームワークは学習したGatedトランジションモデルと再帰的なKalmanフィルタリング層を統合し、非同期測定から瞬時状態を推定する。
推定器は事前訓練されたポリシーのプラグインとして機能し、元のMARLトレーニングアルゴリズムやアーキテクチャ、報酬構造を変更する必要はない。
多様なマルチエージェントおよび連続制御ベンチマークによる評価は、提案した層が通信遅延とメッセージ損失に対するロバスト性を一貫して強化していることを示している。
最も顕著なパフォーマンス向上は、時間的一貫性が制御に不可欠である調整集約型および動的不安定なタスクで観察される。
関連論文リスト
- Monitoring Neural Training with Topology: A Footprint-Predictable Collapse Index [51.56484100374058]
我々は,MHM(Modular Morse Homology maintenance)とCI(Composite Collapse Index)を併用したオンライントポロジ対応型神経表現モニタを提案する。
コンプレックスを再構築する代わりに、スパース編集を一定のスケールで適用し、離散的なモースマッチングを維持し、高速でインクリメンタルな更新をもたらす。
論文 参考訳(メタデータ) (2026-04-28T19:21:21Z) - Delayed Homomorphic Reinforcement Learning for Environments with Delayed Feedback [11.866061471514582]
遅延したフィードバックはマルコフの仮定を破り、学習と制御を妨げる。
本稿では,MDP準同型に基づく枠組みを提案する。
MuJoCoベンチマークにおける連続制御タスクの実験は、我々のアルゴリズムが強化ベースのベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2026-04-04T08:38:52Z) - When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift [64.37959940809633]
時間的持続的なセンサ故障下でのPPOのロバスト性について検討する。
トランスフォーマーを用いたシーケンスポリシーは, センサ数が少ない場合でも高いリターンを保ちながら, 堅牢性, RNN, SSMよりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-03-04T22:21:54Z) - A Representation-Consistent Gated Recurrent Framework for Robust Medical Time-Series Classification [0.0]
隠れ状態表現における時間的一貫性を強制する規則化された正規化戦略を導入するための表現一貫性を持つゲートリカレントフレームワーク(RC-GRF)を提案する。
提案するフレームワークはモデルに依存しないため,内部ゲーティング機構を変更することなく,既存のゲート型リカレントアーキテクチャに統合することができる。
論文 参考訳(メタデータ) (2026-02-10T17:16:49Z) - DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。
近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。
DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T17:07:42Z) - DeCoP: Enhancing Self-Supervised Time Series Representation with Dependency Controlled Pre-training [39.30046923897652]
本稿では、動的でマルチスケールな依存関係を、進化するパッチ間の依存関係をシミュレートすることで、明示的にモデル化する依存性制御事前学習フレームワークを提案する。
DeCoPは、低いコンピューティングリソースを持つ10のデータセットに対して最先端の結果を達成し、わずか37%のFLOPを使用して、PatchTST上のETTh1上でMSEを3%改善する。
論文 参考訳(メタデータ) (2025-09-18T05:44:06Z) - Learning Unified System Representations for Microservice Tail Latency Prediction [8.532290784939967]
マイクロサービスアーキテクチャは、スケーラブルなクラウドネイティブアプリケーションを構築するためのデファクトスタンダードになっています。
従来のアプローチでは、要求毎のレイテンシメトリクスに依存しており、過渡的なノイズに非常に敏感です。
我々は,トラフィック側とリソース側の機能を明確に分離し,モデル化するディープラーニングネットワークであるUSRFNetを提案する。
論文 参考訳(メタデータ) (2025-08-03T07:46:23Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。