論文の概要: eBandit: Kernel-Driven Reinforcement Learning for Adaptive Video Streaming
- arxiv url: http://arxiv.org/abs/2604.08791v2
- Date: Tue, 14 Apr 2026 21:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.354163
- Title: eBandit: Kernel-Driven Reinforcement Learning for Adaptive Video Streaming
- Title(参考訳): eBandit: 適応型ビデオストリーミングのためのカーネル駆動強化学習
- Authors: Mahdi Alizadeh,
- Abstract要約: eBanditは、ネットワーク監視とABRアルゴリズムの選択の両方をLinuxカーネルに再配置するフレームワークである。
軽量なepsilon-greedy Multi-Armed Bandit (MAB) はソックスプログラム内で動作し、ライブTCPメトリクスから得られる報酬に対して3つのABRを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: User-space Adaptive Bitrate (ABR) algorithms cannot see the transport layer signals that matter most, such as minimum RTT and instantaneous delivery rate, and they respond to network changes only after damage has already propagated to the playout buffer. We present eBandit, a framework that relocates both network monitoring and ABR algorithm selection into the Linux kernel using eBPF. A lightweight epsilon-greedy Multi-Armed Bandit (MAB) runs inside a sockops program, evaluating three ABR heuristics against a reward derived from live TCP metrics. On an adversarial synthetic trace eBandit achieves $416.3 \pm 4.9$ cumulative QoE, outperforming the best static heuristic by $7.2\%$. On 42 real-world sessions eBandit achieves a mean QoE per chunk of $1.241$, the highest across all policies, demonstrating that kernel-resident bandit learning transfers to heterogeneous mobile conditions.
- Abstract(参考訳): ユーザ空間適応ビットレート(ABR)アルゴリズムは、RTTや即時配送レートなど、最も重要なトランスポート層信号を見ることができず、すでに障害がプレーアウトバッファに伝播した後にのみネットワークの変更に応答する。
ネットワーク監視とABRアルゴリズムの選択の両方をeBPFを用いてLinuxカーネルに移動させるフレームワークであるeBanditを提案する。
軽量なepsilon-greedy Multi-Armed Bandit (MAB) はソックスプログラム内で動作し、ライブTCPメトリクスから得られる報酬に対して3つのABRヒューリスティックを評価する。
逆合成トレースeBanditは416.3 \pm 4.9$ cumulative QoEを達成し、最高の静的ヒューリスティックを7.2\%で上回る。
実世界の42のセッションにおいて、eBanditは1チャンク当たりの平均QoEが1.241ドルであり、すべてのポリシーで最高であり、カーネル常駐のバンディット学習が異質なモバイル環境に移行することを実証している。
関連論文リスト
- Event-Driven Temporal Graph Networks for Asynchronous Multi-Agent Cyber Defense in NetForge_RL [0.0]
我々は、ネットワーク防御を非同期かつ連続的な部分観測可能なセミマルコフ決定プロセス(POSMDP)として再構成する高忠実なサイバー操作シミュレータNetForge_RLを紹介した。
固定ステップニューラル正規微分方程式(ODE)を用いた連続時間グラフMARL(CT-GMARL)を提案する。
CT-GMARLは、"scorched earth"障害モードを避けることで、最強のベースラインよりも12倍の妥協されたサービスを復元する。
論文 参考訳(メタデータ) (2026-04-10T17:44:29Z) - ALMAB-DC: Active Learning, Multi-Armed Bandits, and Distributed Computing for Sequential Experimental Design and Black-Box Optimization [0.0]
ALMAB-DCはブラックボックス実験のための逐次設計フレームワークである。
バンディット成分に対する累積的後悔境界を示し、Amdahlの法則を通した並列スケーラビリティを特徴付ける。
分散実行は、Amdahlの法則に従って、$K = 16$エージェントでの7.5times$スピードアップを達成する。
論文 参考訳(メタデータ) (2026-03-22T11:47:20Z) - Adaptive Anchor Policies for Efficient 4D Gaussian Streaming [5.13713525861535]
ほとんどのパイプラインはFarthest Point Smpling (FPS)のような固定アンカーの選択に依存しており、厳格な予算の下で過度に配置されている。
本稿では,プラグイン型,予算対応型アンカーサンプリングシステムであるEfficient Gaussian Streaming (EGS)を提案する。
EGSはFPSを強化されたポリシーに置き換え、ガウスのストリーミング再構築のバックボーンは変更しない。
論文 参考訳(メタデータ) (2026-03-18T00:18:11Z) - Hierarchical Federated Graph Attention Networks for Scalable and Resilient UAV Collision Avoidance [0.5505634045241287]
衝突回避を実践するためにバランスをとる必要がある最も重要な指標は、リアルタイムのパフォーマンス、敵のレジリエンス、プライバシー保護である。
我々は適応型微分プライバシー機構を提案し,実時間脅威の評価に基づいて雑音レベル$(in [0.1, 1.0])$を動的に低減する。
このアーキテクチャは500UAVのスケーラブルなシナリオを提供し、衝突速度は2.0%$、ビザンティンの耐障害性は$f n/3$である。
論文 参考訳(メタデータ) (2025-11-05T12:01:00Z) - RAPID^3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformer [86.57077884971478]
ディフュージョントランスフォーマー(DiT)は、視覚発生時に優れるが、遅いサンプリングによって妨げられる。
本稿では,RAPID3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformersを紹介する。
ベースジェネレータの更新をゼロにするイメージワイドアクセラレーションを提供する。
競合する生成品質でサンプリングを3倍近く高速化する。
論文 参考訳(メタデータ) (2025-09-26T13:20:52Z) - Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms [4.127488674019288]
大規模言語モデルのポストトレーニングは、同じGPUクラスタ上でトラジェクトリサンプリングとポリシ最適化を併用する。
ヘテロジニアスな"推論"と"トレーニング"スワムにまたがって、これらの2つのフェーズをきれいに分離するRLシステムであるEchoを紹介します。
論文 参考訳(メタデータ) (2025-08-07T13:37:04Z) - Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。
ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。
LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文 参考訳(メタデータ) (2024-06-14T13:42:38Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Non-Cooperative Game Theory Based Rate Adaptation for Dynamic Video
Streaming over HTTP [89.30855958779425]
Dynamic Adaptive Streaming over HTTP (DASH)は、新興かつ有望なマルチメディアストリーミング技術であることを示した。
本稿では,サーバの限られた輸出帯域幅をマルチユーザに対して最適に割り当てるアルゴリズムを提案し,その品質・オブ・エクスペリエンス(QoE)を公平性で最大化する。
論文 参考訳(メタデータ) (2019-12-27T01:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。