論文の概要: Diffusion Model-based Reinforcement Learning for Version Age of Information Scheduling: Average and Tail-Risk-Sensitive Control
- arxiv url: http://arxiv.org/abs/2601.18069v1
- Date: Mon, 26 Jan 2026 01:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.61695
- Title: Diffusion Model-based Reinforcement Learning for Version Age of Information Scheduling: Average and Tail-Risk-Sensitive Control
- Title(参考訳): 拡散モデルに基づく情報スケジューリングのバージョニングのための強化学習:平均とTail-Risk-Sensitive Control
- Authors: Haoyuan Pan, Sizhao Chen, Zhaorui Wang, Tse-Tin Chan,
- Abstract要約: 既存のVAoIスケジューリングアプローチでは、平均的なVAoIの最小化に重点を置いている。
本稿では,長期送信コスト制約のある複数ユーザ状態更新システムにおいて,平均指向とテールリスクに敏感なVAoIスケジューリングについて検討する。
- 参考スコア(独自算出の注目度): 3.5014258913959093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring timely and semantically accurate information delivery is critical in real-time wireless systems. While Age of Information (AoI) quantifies temporal freshness, Version Age of Information (VAoI) captures semantic staleness by accounting for version evolution between transmitters and receivers. Existing VAoI scheduling approaches primarily focus on minimizing average VAoI, overlooking rare but severe staleness events that can compromise reliability under stochastic packet arrivals and unreliable channels. This paper investigates both average-oriented and tail-risk-sensitive VAoI scheduling in a multi-user status update system with long-term transmission cost constraints. We first formulate the average VAoI minimization problem as a constrained Markov decision process and introduce a deep diffusion-based Soft Actor-Critic (D2SAC) algorithm. By generating actions through a diffusion-based denoising process, D2SAC enhances policy expressiveness and establishes a strong baseline for mean performance. Building on this foundation, we put forth RS-D3SAC, a risk-sensitive deep distributional diffusion-based Soft Actor-Critic algorithm. RS-D3SAC integrates a diffusion-based actor with a quantile-based distributional critic, explicitly modeling the full VAoI return distribution. This enables principled tail-risk optimization via Conditional Value-at-Risk (CVaR) while satisfying long-term transmission cost constraints. Extensive simulations show that, while D2SAC reduces average VAoI, RS-D3SAC consistently achieves substantial reductions in CVaR without sacrificing mean performance. The dominant gain in tail-risk reduction stems from the distributional critic, with the diffusion-based actor providing complementary refinement to stabilize and enrich policy decisions, highlighting their effectiveness for robust and risk-aware VAoI scheduling in multi-user wireless systems.
- Abstract(参考訳): リアルタイム無線システムでは、タイムリーかつセマンティックに正確な情報配信が不可欠である。
Age of Information (AoI) が時間的鮮度を定量化するのに対し、Version Age of Information (VAoI) は送信機と受信機間のバージョン進化を考慮し、セマンティック・ステールネスをキャプチャする。
既存のVAoIスケジューリング手法は主に平均的なVAoIの最小化に重点を置いており、確率的なパケット到着や信頼性の低いチャネルで信頼性を損なうような、稀だが厳しい不安定なイベントを見渡す。
本稿では,長期送信コスト制約のある複数ユーザ状態更新システムにおいて,平均指向とテールリスクに敏感なVAoIスケジューリングについて検討する。
まず, 平均VAoI最小化問題をマルコフ決定過程として定式化し, D2SACアルゴリズムを導入した。
D2SACは拡散に基づくデノナイジングプロセスを通じてアクションを生成することにより、ポリシー表現性を高め、平均性能の強力なベースラインを確立する。
この基礎の上に構築されたRS-D3SACは,リスクに敏感な深部分布拡散に基づくソフトアクター・クリティカルアルゴリズムである。
RS-D3SACは拡散ベースのアクターと量子ベースの分布批判を統合し、完全なVAoI戻り分布を明示的にモデル化する。
これにより、長期送信コストの制約を満たすとともに、条件付きバリュー・アット・リスク(CVaR)による原則化されたテールリスク最適化が可能となる。
D2SACは平均VAoIを減少させるが、RS-D3SACは平均性能を犠牲にすることなくCVaRを大幅に低下させる。
テールリスク低減の優位性は、拡散ベースのアクターがポリシー決定を安定させ、強化するための補完的な改善を提供し、マルチユーザ無線システムにおけるロバストでリスクを意識したVAoIスケジューリングの有効性を強調している、分散批判に端を発する。
関連論文リスト
- Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - SecDiff: Diffusion-Aided Secure Deep Joint Source-Channel Coding Against Adversarial Attacks [73.41290017870097]
SecDiffは、プラグイン・アンド・プレイの拡散支援デコーディングフレームワークである。
対向無線環境下での深部JSCCの安全性と堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-03T11:24:06Z) - Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting [52.6508222408558]
Eucidated Rolling Diffusion Models (ERDM)を紹介する。
ERDMはEucidated Diffusion Models (EDM) の原理的, 性能的設計とローリング予測構造を統一する最初のフレームワークである
2D Navier-StokesシミュレーションとERA5グローバル気象予報の1.5円解像度では、ERDMはキー拡散ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-24T21:44:31Z) - DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty [21.542065840791683]
深層強化学習(英語版)(RL)は大きな成功を収めているが、実世界のシナリオにおけるその応用は、環境の不確実性に対する堅牢性の欠如によってしばしば妨げられている。
本研究では,最新技術であるSoft Actor-Critic(SAC)アルゴリズムのロバスト性を高めるために,分散ロバストなSoft Actor-Critic(DR-SAC)を提案する。
論文 参考訳(メタデータ) (2025-06-14T20:36:44Z) - Uncertainty-Aware Deep Attention Recurrent Neural Network for
Heterogeneous Time Series Imputation [0.25112747242081457]
欠落は多変量時系列においてユビキタスであり、信頼できる下流分析の障害となる。
本稿では、欠落した値とその関連不確かさを共同で推定するDeep Attention Recurrent Imputation (Imputation)を提案する。
実験の結果,実世界のデータセットを用いた多様な計算タスクにおいて,SOTAを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-04T13:21:11Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。