論文の概要: Dual-Gated Epistemic Time-Dilation: Autonomous Compute Modulation in Asynchronous MARL
- arxiv url: http://arxiv.org/abs/2603.23722v1
- Date: Tue, 24 Mar 2026 21:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.02687
- Title: Dual-Gated Epistemic Time-Dilation: Autonomous Compute Modulation in Asynchronous MARL
- Title(参考訳): Dual-Gated Epistemic Time-Dilation: Asynchronous MARLにおける自律型CT変調
- Authors: Igor Jankowski,
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)アルゴリズムは、複雑な連続したドメインをまたいだ前例のない成功を達成する。
標準のデプロイメントは、同期運用パラダイムに厳密に準拠する。
この高密度スループットは、熱的および代謝的予算が極めて制約されたエッジデバイス上での物理的展開の基本的な障壁として機能する。
本稿では, 心電図を用いた心電図を用いた心電図(ETD-MAPPO)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multi-Agent Reinforcement Learning (MARL) algorithms achieve unprecedented successes across complex continuous domains, their standard deployment strictly adheres to a synchronous operational paradigm. Under this paradigm, agents are universally forced to execute deep neural network inferences at every micro-frame, regardless of immediate necessity. This dense throughput acts as a fundamental barrier to physical deployment on edge-devices where thermal and metabolic budgets are highly constrained. We propose Epistemic Time-Dilation MAPPO (ETD-MAPPO), augmented with a Dual-Gated Epistemic Trigger. Instead of depending on rigid frame-skipping (macro-actions), agents autonomously modulate their execution frequency by interpreting aleatoric uncertainty (via Shannon entropy of their policy) and epistemic uncertainty (via state-value divergence in a Twin-Critic architecture). To format this, we structure the environment as a Semi-Markov Decision Process (SMDP) and build the SMDP-Aligned Asynchronous Gradient Masking Critic to ensure proper credit assignment. Empirical findings demonstrate massive improvements (> 60% relative baseline acquisition leaps) over current temporal models. By assessing LBF, MPE, and the 115-dimensional state space of Google Research Football (GRF), ETD correctly prevented premature policy collapse. Remarkably, this unconstrained approach leads to emergent Temporal Role Specialization, reducing computational overhead by a statistically dominant 73.6% entirely during off-ball execution without deteriorating centralized task dominance.
- Abstract(参考訳): MARL(Multi-Agent Reinforcement Learning)アルゴリズムは、複雑な継続的ドメイン全体で前例のない成功を収める一方で、標準的なデプロイメントは、同期運用パラダイムに厳密に準拠する。
このパラダイムの下では、エージェントは即時の必要性に関係なく、すべてのマイクロフレームでディープニューラルネットワーク推論を実行せざるを得ない。
この高密度スループットは、熱的および代謝的予算が極めて制約されたエッジデバイス上での物理的展開の基本的な障壁として機能する。
本稿では, 心電図を用いた心電図を用いた心電図(ETD-MAPPO)を提案する。
厳密なフレームスキッピング (macro-actions) に依存する代わりに、エージェントはアレタリック不確実性(シャノンのエントロピーによる)と(ツイン・クライト建築における状態値のばらつきによる)てんかん不確実性(英語版)を解釈することで、実行頻度を自律的に調節する。
そこで我々は,Semi-Markov Decision Process (SMDP) として環境を構造化し,適切なクレジット割り当てを確保するためにSMDP対応非同期勾配マスキング批判を構築した。
実証的な結果から、現在の時間モデルよりも大幅な改善(ベースライン獲得の60%以上)が見られた。
LBF, MPE, およびGoogle Research Football (GRF)の115次元状態空間を評価することで、ETDは早期の政策崩壊を正しく防止した。
注目すべきは、この制約のないアプローチは、時間的役割の特殊化を突発させ、計算オーバーヘッドを統計的に支配的な73.6%削減し、中央集権的なタスク支配を低下させることなく、オフボール実行時に完全に減らすことである。
関連論文リスト
- From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation [18.70033095161235]
Indicit Likelihood Estimation (IMLE) を用いて条件付きフローマッチングの専門家を高速な単一ステップの学生に蒸留する枠組みを提案する。
双方向のチャンファー距離は、モードカバレッジと忠実度の両方を促進する設定レベルの目的を提供する。
統合認識エンコーダは、さらに多視点RGB、深度、点雲、プロプレセプションを幾何学的認識表現に統合する。
論文 参考訳(メタデータ) (2026-03-10T09:30:05Z) - FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration [21.39395366378851]
本稿では,周波数領域推論と線形時間列モデリングを融合した二分岐フレームワークFoSSを提案する。
Argoverse 1とArgoverse 2ベンチマークの実験では、FoSSが最先端の精度を実現し、22.5%、パラメータが40%以上削減された。
論文 参考訳(メタデータ) (2026-03-01T21:38:59Z) - MEMTS: Internalizing Domain Knowledge via Parameterized Memory for Retrieval-Free Domain Adaptation of Time Series Foundation Models [51.506429027626005]
Memory for Time Series (MEMTS) は、時系列予測における検索不要領域適応のための軽量かつプラグアンドプレイ方式である。
MEMTSの鍵となるコンポーネントは知識永続化モジュール(KPM)であり、ドメイン固有の時間力学を内部化する。
このパラダイムシフトにより、MEMTSは定数時間推論とニアゼロレイテンシによる正確なドメイン適応を実現することができる。
論文 参考訳(メタデータ) (2026-02-14T14:00:06Z) - Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting [79.37674445572462]
時系列予測(TSF)は、周期内変動と周期間トレンドの複雑な絡み合いのため、依然として困難な問題である。
形状変化テンソルを静止画像として扱うと、トポロジカルミスマッチが発生する。
均一な固定サイズの表現に依存することは、モデリング能力を非効率に割り当てる。
TimeGSは、予測パラダイムをレグレッションから2D生成レンダリングに根本的にシフトする、新しいフレームワークである。
論文 参考訳(メタデータ) (2026-02-10T14:13:36Z) - Analyzing and Improving Diffusion Models for Time-Series Data Imputation: A Proximal Recursion Perspective [45.713195454899875]
拡散モデル(DM)は時系列データインプットを約束している。
DMの性能は複雑なシナリオでは相容れない。
我々はSPIRIT(Semi-proximal Transport Regularized Time-Series Imputation)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T12:11:57Z) - ECG-RAMBA: Zero-Shot ECG Generalization by Morphology-Rhythm Disentanglement and Long-Range Modeling [0.6875312133832079]
ECG-RAMBAは、形態学とリズムを分離し、文脈認識融合を通じてそれらを再統合するフレームワークである。
PTB-XLで一貫したクロスデータセット性能を示す。
論文 参考訳(メタデータ) (2025-12-29T10:14:52Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting [52.6508222408558]
Eucidated Rolling Diffusion Models (ERDM)を紹介する。
ERDMはEucidated Diffusion Models (EDM) の原理的, 性能的設計とローリング予測構造を統一する最初のフレームワークである
2D Navier-StokesシミュレーションとERA5グローバル気象予報の1.5円解像度では、ERDMはキー拡散ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-24T21:44:31Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。