論文の概要: Offline to Online Learning for Real-Time Bandwidth Estimation
- arxiv url: http://arxiv.org/abs/2309.13481v3
- Date: Sat, 12 Oct 2024 00:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 21:41:10.975422
- Title: Offline to Online Learning for Real-Time Bandwidth Estimation
- Title(参考訳): リアルタイム帯域推定のためのオンライン学習のオフライン化
- Authors: Aashish Gottipati, Sami Khairy, Gabriel Mittag, Vishak Gopal, Ross Cutler,
- Abstract要約: リアルタイムビデオアプリケーションは、様々なネットワーク条件でユーザエクスペリエンスを維持するために正確な推定を必要とする。
本稿では,データ駆動更新による帯域幅ベースのメソッドのパラメータチューニングを手動で置き換える,模倣学習ベースのソリューションであるMerlinを提案する。
- 参考スコア(独自算出の注目度): 18.33604214120801
- License:
- Abstract: Real-time video applications require accurate bandwidth estimation (BWE) to maintain user experience across varying network conditions. However, increasing network heterogeneity challenges general-purpose BWE algorithms, necessitating solutions that adapt to end-user environments. While widely adopted, heuristic-based methods are difficult to individualize without extensive domain expertise. Conversely, online reinforcement learning (RL) offers ease of customization but neglects prior domain expertise and suffers from sample inefficiency. Thus, we present Merlin, an imitation learning-based solution that replaces the manual parameter tuning of heuristic-based methods with data-driven updates to streamline end-user personalization. Our key insight is that transforming heuristic-based BWE algorithms into neural networks facilitates data-driven personalization. Merlin utilizes Behavioral Cloning to efficiently learn from offline telemetry logs, capturing heuristic policies without live network interactions. The cloned policy can then be seamlessly tailored to end user network conditions through online finetuning. In real intercontinental videoconferencing calls, Merlin matches our heuristic's policy with no statistically significant differences in user quality of experience (QoE). Finetuning Merlin's control policy to end-user environments enables QoE improvements of up to 7.8% compared to the heuristic policy. Lastly, our IL-based design performs competitively with current state-of-the-art online RL techniques but converges with 80% fewer videoconferencing samples, facilitating practical end-user personalization.
- Abstract(参考訳): リアルタイムビデオアプリケーションは、様々なネットワーク条件でユーザエクスペリエンスを維持するために、正確な帯域幅推定(BWE)を必要とする。
しかし、ネットワークの不均一性の増大は汎用的なBWEアルゴリズムに挑戦し、エンドユーザ環境に適応するソリューションを必要とする。
広く採用されているが、ヒューリスティックに基づく手法は、広範なドメインの専門知識なしでは識別が困難である。
逆に、オンライン強化学習(RL)は、カスタマイズの容易さを提供するが、以前のドメインの専門知識を無視し、サンプルの非効率に苦しむ。
そこで本研究では,ヒューリスティックな手法による手動パラメータチューニングをデータ駆動更新に置き換え,エンドユーザのパーソナライゼーションを効率化する模倣学習ベースのソリューションであるMerlinを提案する。
私たちのキーとなる洞察は、ヒューリスティックベースのBWEアルゴリズムをニューラルネットワークに変換することで、データ駆動のパーソナライゼーションを促進することです。
MerlinはBehavimental Cloningを使用してオフラインテレメトリログから効率よく学習し、ライブネットワークのインタラクションなしでヒューリスティックなポリシーをキャプチャする。
クローン化されたポリシーは、オンラインの微調整によってエンドユーザーネットワークの状態にシームレスに調整できる。
実際の大陸間ビデオ会議コールでは、Merlinはユーザ体験の質(QoE)に統計的に有意な差はないという、我々のヒューリスティックな方針にマッチする。
マーリンの制御ポリシーをエンドユーザー環境に微調整することで、QoEはヒューリスティックポリシーと比較して最大7.8%改善できる。
最後に、我々のILベースの設計は、現在最先端のオンラインRL技術と競合するが、80%少ないビデオ会議サンプルに収束し、実用的なエンドユーザーパーソナライズを容易にする。
関連論文リスト
- Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Structured Reinforcement Learning for Media Streaming at the Wireless Edge [15.742424623905825]
メディアストリーミングは、無線エッジ(アクセス)ネットワーク上の支配的なアプリケーションである。
ビデオストリーミング環境において,最適な意思決定のための学習ベースのポリシーを開発し,実証する。
論文 参考訳(メタデータ) (2024-04-10T19:25:51Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with
Online Learning [60.17407932691429]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。
本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。
提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文 参考訳(メタデータ) (2023-09-04T17:30:21Z) - Elastically-Constrained Meta-Learner for Federated Learning [3.032797107899338]
フェデレートラーニング(Federated Learning)とは、データ共有を禁止する複数のパーティを対象とした、協調的な機械学習モデルに対するアプローチである。
フェデレーション学習の課題の1つは、クライアント間の非制約データである。
論文 参考訳(メタデータ) (2023-06-29T05:58:47Z) - User-Centric Federated Learning: Trading off Wireless Resources for
Personalization [18.38078866145659]
フェデレートラーニング(FL)システムでは、統計的不均一性はアルゴリズム収束時間を増やし、一般化性能を低下させる。
FLが課すプライバシー制約に違反することなく、上記の問題に対処するためには、パーソナライズされたFLメソッドは、データに直接アクセスすることなく、統計的に類似したクライアントを結合する必要がある。
本研究では,容易に利用できる勾配情報に基づいて,FLクライアント毎にパーソナライズされたモデルを生成可能なユーザ中心集約ルールを設計する。
提案アルゴリズムは,平均精度,ノード性能,通信オーバヘッドの訓練において,パーソナライズされたFLベースラインを上回っている。
論文 参考訳(メタデータ) (2023-04-25T15:45:37Z) - Intelligent Model Update Strategy for Sequential Recommendation [34.02565495747133]
我々はIntellectReqを紹介した。IntellectReqはエッジで動作するように設計されており、最小の通信オーバーヘッドでパラメータ要求のコスト対効果を評価できる。
本研究では,実時間ユーザ動作を正規分布に変換するために統計マッピング手法を用い,モデルの不確実性を定量化するためにマルチサンプル出力を用いる。
論文 参考訳(メタデータ) (2023-02-14T20:44:12Z) - Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文 参考訳(メタデータ) (2021-08-23T18:26:16Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。