論文の概要: SABR: A Stable Adaptive Bitrate Framework Using Behavior Cloning Pretraining and Reinforcement Learning Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.10486v1
- Date: Sat, 30 Aug 2025 05:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.742445
- Title: SABR: A Stable Adaptive Bitrate Framework Using Behavior Cloning Pretraining and Reinforcement Learning Fine-Tuning
- Title(参考訳): SABR:ビヘイビア・クローン・プレトレーニングと強化学習ファインチューニングを用いた安定適応ビットレート・フレームワーク
- Authors: Pengcheng Luo, Yunyang Zhao, Bowen Zhang, Genke Yang, Boon-Hee Soong, Chau Yuen,
- Abstract要約: 本稿では,行動クローニング(BC)と強化学習(RL)の微調整を組み合わせた学習フレームワークSABRを提案する。
ABRBench-3G と ABRBench-4G+ というベンチマークも導入した。
- 参考スコア(独自算出の注目度): 41.28640733689099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of 5G, the internet has entered a new video-centric era. From short-video platforms like TikTok to long-video platforms like Bilibili, online video services are reshaping user consumption habits. Adaptive Bitrate (ABR) control is widely recognized as a critical factor influencing Quality of Experience (QoE). Recent learning-based ABR methods have attracted increasing attention. However, most of them rely on limited network trace sets during training and overlook the wide-distribution characteristics of real-world network conditions, resulting in poor generalization in out-of-distribution (OOD) scenarios. To address this limitation, we propose SABR, a training framework that combines behavior cloning (BC) pretraining with reinforcement learning (RL) fine-tuning. We also introduce benchmarks, ABRBench-3G and ABRBench-4G+, which provide wide-coverage training traces and dedicated OOD test sets for assessing robustness to unseen network conditions. Experimental results demonstrate that SABR achieves the best average rank compared with Pensieve, Comyco, and NetLLM across the proposed benchmarks. These results indicate that SABR enables more stable learning across wide distributions and improves generalization to unseen network conditions.
- Abstract(参考訳): 5Gの登場により、インターネットは新たなビデオ中心の時代に入った。
TikTokのような短いビデオプラットフォームから、Bilibiliのような長いビデオプラットフォームに至るまで、オンラインビデオサービスはユーザーの消費習慣を変えつつある。
適応ビットレート(ABR)制御は、QoE(Quality of Experience)に影響を及ぼす重要な要因として広く認識されている。
近年,ABR法が注目されている。
しかし、そのほとんどは訓練中の限られたネットワークトレースセットに依存しており、現実世界のネットワーク条件の分散特性を軽視しているため、オフ・オブ・ディストリビューション(OOD)のシナリオでは一般化が不十分である。
この制限に対処するために,行動クローニング(BC)と強化学習(RL)の微調整を組み合わせた学習フレームワークであるSABRを提案する。
ABRBench-3G と ABRBench-4G+ というベンチマークも導入した。
実験の結果,SABRはPensieve,Comyco,NetLLMと比較して,提案したベンチマークで最高の平均ランクを達成した。
これらの結果から,SABRは広い分布にまたがるより安定した学習を可能にし,ネットワーク条件の一般化を改善することが示唆された。
関連論文リスト
- ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Broad Critic Deep Actor Reinforcement Learning for Continuous Control [4.979815588384994]
新しいハイブリッドアクター・クリティック強化学習(RL)フレームワークが導入された。
提案するフレームワークは,広範学習システム(BLS)とディープニューラルネットワーク(DNN)を統合する。
このハイブリッド設計は一般化可能であり、既存のアクター批判アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2024-11-24T12:24:46Z) - Gradient Boosting Reinforcement Learning [9.66275447955737]
Gradient Boosting Reinforcement Learning (GBRL) は、勾配強化木(GBT)の強みを強化学習(RL)タスクに適応させるフレームワークである。
GBRLは、構造化された観察と分類的特徴を持つ領域において、ニューラルネットワーク(NN)よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-11T07:52:33Z) - Overcoming Recency Bias of Normalization Statistics in Continual
Learning: Balance and Adaptation [67.77048565738728]
継続的な学習には、一連のタスクを学習し、彼らの知識を適切にバランスさせることが含まれる。
本稿では,タスク・ワイド・コントリビューションに適応するためのベイズ的戦略を適切に取り入れた BN の適応バランス (AdaB$2$N) を提案する。
提案手法は,幅広いベンチマークにおいて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T04:50:40Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - ANT: Learning Accurate Network Throughput for Better Adaptive Video
Streaming [20.544139447901113]
アダプティブビットレート(ABR)決定は、ビデオストリーミングアプリケーションで満足のいくQoE(Quality of Experience)を確保するために重要な役割を果たします。
本稿では、ネットワークスループットダイナミクスの全スペクトルを特徴付けるためにANT(a.k.a., Accurate Network Throughput)モデルを学ぶことを提案する。
その結果,現在のPensiveやOboeと比較して,ユーザQoEを65.5%,31.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-04-26T12:15:53Z) - Regularized Behavior Value Estimation [31.332929202377]
正規化行動値推定(R-BVE)を導入する。
R-BVEはトレーニング中の行動方針の価値を推定し、展開時にのみ政策改善を行います。
我々は,RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。
論文 参考訳(メタデータ) (2021-03-17T11:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。