Fugu-MT 論文翻訳(概要): Learning Selective Merge Policies for Deadline-Constrained Coded Caching via Deep Reinforcement Learning

論文の概要: Learning Selective Merge Policies for Deadline-Constrained Coded Caching via Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2605.15236v1
Date: Wed, 13 May 2026 22:18:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-18 21:22:26.023369
Title: Learning Selective Merge Policies for Deadline-Constrained Coded Caching via Deep Reinforcement Learning
Title（参考訳）: Deep Reinforcement Learningによるデッドライン制約コードキャッシングのための選択的マージポリシーの学習
Authors: Amirhossein Yousefiramandi,
Abstract要約: ビデオストリーミングサービスでは、リクエストごとに厳格な期限を考慮し、どのメッセージをマージするかを選択することが不可欠である。そこで本研究では,DRLをベースとしたデッドライン制約付き符号化配信を,マスク付き離散動作キュー状態制御問題として定式化する手法を提案する。また、近似ポリシー最適化により、グラフアテンションポリシーネットワークをトレーニングする。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the coded caching, the server can use the information the users have cached to serve multiple users at a time by sending a single coded multi-casting message, i.e., the merged message, thereby relieving the peak network loads. However, for the delay-sensitive applications of the users, like the video streaming services, it becomes essential to choose which messages to merge online, considering the strict deadlines for each request. The problem, however, is that while the merge is helpful for the formation of the current coded multi-casting message, it can be harmful for the subsequent ones. We proposed a DRL-based solution that formulates the deadline-constrained coded delivery as a masked discrete-action queue-state control problem, while we trained a graph-attention policy network via proximal policy optimization. The policy network reduces the broadcast-packet expiration ratio $ρ$ by $40.9%$ ($0.208$ vs. $0.352$) with respect to the best coded multi-casting baseline (SACM++) on the uniform-demand benchmark, while also attaining the best broadcast-efficiency score $σ$ across the Track A battery among the coded multi-casting methods. The interesting fact we observed is that for the applications of the users with tight deadlines, the method of selective merging is better than the method of aggressive merging, i.e., the policy network learns to merge at only $\approx 31.8%$ rate, even though the same observation holds across the variations within the same simulator family.
Abstract（参考訳）: コードキャッシングにより、サーバは、ユーザがキャッシュした情報を一度に複数のユーザに提供するために、単一のコード化されたマルチキャストメッセージ、すなわち、マージされたメッセージを送信することで、ピークネットワークの負荷を軽減できる。しかし、ビデオストリーミングサービスのようなユーザの遅延に敏感なアプリケーションでは、各リクエストの厳格な期限を考慮して、どのメッセージをオンラインにマージするかを選択することが不可欠になる。しかし、問題は、マージが現在の符号化されたマルチキャストメッセージの形成に有効である一方で、その後のメッセージには有害である可能性があることである。 DRLをベースとした提案手法では,期限制約付き符号化配信をマスク付き離散動作キュー状態制御問題として定式化するとともに,近似ポリシ最適化によるグラフアテンションポリシーネットワークを訓練した。ポリシーネットワークは、一様要求のベンチマークにおいて、最高のコード化されたマルチキャストベースライン(SACM++)に対して、放送パケットの有効期限比を$ρ$$40.9%$(0.208$対0.352$)削減し、また、コード化されたマルチキャストメソッドの中で最高の放送効率スコア$σ$を達成する。私たちが観察した興味深い事実は、厳密な期限を持つユーザのアプリケーションの場合、選択的なマージの方法はアグレッシブマージの方法よりも優れている、すなわち、同じシミュレーターファミリー内で同じ観察が成り立つにもかかわらず、ポリシーネットワークがわずか$\approx 31.8%のレートでマージすることを学ぶことである。

関連論文リスト

Queue Length Regret Bounds for Contextual Queueing Bandits [0.8984888893275712]
我々は、未知のサービスレートを同時に学習しながら、スケジューリングのための新しいコンテキスト対応フレームワークであるコンテキストキュー帯域を導入します。我々のアルゴリズムであるCQB-$varepsilon$は、$widetildemathcalO(T-1/4)$の残念な上限を達成する。また,2番目のアルゴリズムであるCQB-Optは,逆選択された文脈の設定も考慮し,その場合の残差上限は$mathcalO(log2 T)$である。
論文参考訳（メタデータ） (2026-01-27T07:40:23Z)
Why Should the Server Do It All?: A Scalable, Versatile, and Model-Agnostic Framework for Server-Light DNN Inference over Massively Distributed Clients via Training-Free Intermediate Feature Compression [6.932768187544348]
スプリットコンピューティングにおける通信負荷とサーバ負荷の両方を削減するためにIFを圧縮する、リトレーニングフリーでアーキテクチャに依存しないフレームワークであるSLICERを紹介した。標準的なビジョンとLLMワークロード全体にわたって、SLICERはアップリンクボリュームを最大10倍、サーバGPU時間を最大4.4倍削減する。
論文参考訳（メタデータ） (2025-11-03T08:44:13Z)
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。 PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文参考訳（メタデータ） (2025-04-18T17:49:55Z)
DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文参考訳（メタデータ） (2024-03-25T22:49:56Z)
Offline Imitation Learning with Suboptimal Demonstrations via Relaxed Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文参考訳（メタデータ） (2023-03-05T03:35:11Z)
ByzSecAgg: A Byzantine-Resistant Secure Aggregation Scheme for Federated Learning Based on Coded Computing and Vector Commitment [61.540831911168226]
ByzSecAggは、フェデレートラーニングのための効率的なセキュアアグリゲーションスキームである。 ByzSecAggはビザンツの攻撃やプライバシーの漏洩に耐性がある。
論文参考訳（メタデータ） (2023-02-20T11:15:18Z)
Offline RL With Realistic Datasets: Heteroskedasticity and Support Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文参考訳（メタデータ） (2022-11-02T11:36:06Z)
Optimal Admission Control for Multiclass Queues with Time-Varying Arrival Rates via State Abstraction [16.99621896314678]
我々は、意思決定者がランダムに到着したタスクを受け入れ、拒否する必要があるという、新しいキュー問題を考える。目的は、処理されたタスクの総価格が有限の地平線上で最大になるように、どのタスクを受け入れるかを決定することである。最適値関数は特定の構造を持ち、ハイブリッドMDPを正確に解くことができることを示す。
論文参考訳（メタデータ） (2022-03-14T12:38:13Z)
Better than the Best: Gradient-based Improper Reinforcement Learning for Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文参考訳（メタデータ） (2021-05-01T10:18:34Z)
A Reinforcement Learning Approach to Age of Information in Multi-User Networks with HARQ [1.5469452301122177]
ソースノードから複数のユーザへのタイムセンシティブな情報の送信を,エラーが発生しやすい通信チャネル上でスケジューリングする。リソースの長期平均制約はソースに課され、送信の平均数を制限します。
論文参考訳（メタデータ） (2021-02-19T07:30:44Z)
Learning Algorithms for Minimizing Queue Length Regret [5.8010446129208155]
パケットはランダムに送信機のキューに到着し、受信機に送信されるのを待ちます。送信機の目的は、キュー内のパケット数を$T$のタイムスロットで最小化するために、最適なチャネルを素早く識別することである。順序の最適値O(1)$キュー長の後悔を得られるキュー長ベースのポリシーのセットが存在することを示す。
論文参考訳（メタデータ） (2020-05-11T15:50:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。