論文の概要: Offline to Online Learning for Personalized Bandwidth Estimation
- arxiv url: http://arxiv.org/abs/2309.13481v2
- Date: Tue, 13 Aug 2024 21:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 18:36:49.404066
- Title: Offline to Online Learning for Personalized Bandwidth Estimation
- Title(参考訳): 個人化帯域推定のためのオンライン学習のオフライン化
- Authors: Aashish Gottipati, Sami Khairy, Gabriel Mittag, Vishak Gopal, Ross Cutler,
- Abstract要約: 帯域幅推定(BWE)のためのデータ駆動型ソリューションであるMerlinを提案する。
Merlinは、専門家のBWEポリシーを抽出するために、事前の手法から専門家のデモンストレーションを利用する。
実世界のビデオ会議コールでは、Merlinは、客観的なQoEメトリクスに関して統計的に有意な動きをしない専門家のポリシーと一致します。
- 参考スコア(独自算出の注目度): 18.33604214120801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we tackle the problem of bandwidth estimation (BWE) for real-time communication systems through expert personalization. While expert heuristic-based methods have been widely adopted, tailoring these methods for each and every end user environment is cumbersome due to the level of domain expertise and manual effort required to adjust the carefully tuned heuristic parameters. Thus. we propose Merlin, a data-driven solution to BWE that harnesses expert demonstrations from prior heuristic-based methods to extract an expert BWE policy. The extracted policy can then be finetuned to end user network conditions to improve user quality of experience (QoE). In real-world videoconferencing calls, Merlin matches our expert's policy with no statistically significant movements in terms of objective QoE metrics. Additionally, we show that personalizing Merlin's control policy is possible through a small number of online data-driven parameter updates.
- Abstract(参考訳): 本研究では,専門家のパーソナライズによるリアルタイム通信システムにおける帯域幅推定(BWE)の問題に取り組む。
専門的なヒューリスティックな手法が広く採用されているが、ドメインの専門知識と注意深く調整されたヒューリスティックなパラメータを調整するために必要な手作業のために、各ユーザー環境に対してこれらの手法を調整することは困難である。
です。
本稿では,BWE に対するデータ駆動型ソリューションである Merlin を提案する。
次に、抽出したポリシーをエンドユーザーネットワーク条件に微調整して、ユーザ体験の質(QoE)を改善する。
実世界のビデオ会議コールでは、Merlinは、客観的なQoEメトリクスに関して統計的に有意な動きをしない専門家のポリシーと一致します。
さらに,Merlinの制御ポリシをパーソナライズすることは,少数のオンラインデータ駆動パラメータ更新によって可能であることを示す。
関連論文リスト
- Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Structured Reinforcement Learning for Media Streaming at the Wireless Edge [15.742424623905825]
メディアストリーミングは、無線エッジ(アクセス)ネットワーク上の支配的なアプリケーションである。
ビデオストリーミング環境において,最適な意思決定のための学習ベースのポリシーを開発し,実証する。
論文 参考訳(メタデータ) (2024-04-10T19:25:51Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with
Online Learning [60.17407932691429]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。
本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。
提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文 参考訳(メタデータ) (2023-09-04T17:30:21Z) - Elastically-Constrained Meta-Learner for Federated Learning [3.032797107899338]
フェデレートラーニング(Federated Learning)とは、データ共有を禁止する複数のパーティを対象とした、協調的な機械学習モデルに対するアプローチである。
フェデレーション学習の課題の1つは、クライアント間の非制約データである。
論文 参考訳(メタデータ) (2023-06-29T05:58:47Z) - User-Centric Federated Learning: Trading off Wireless Resources for
Personalization [18.38078866145659]
フェデレートラーニング(FL)システムでは、統計的不均一性はアルゴリズム収束時間を増やし、一般化性能を低下させる。
FLが課すプライバシー制約に違反することなく、上記の問題に対処するためには、パーソナライズされたFLメソッドは、データに直接アクセスすることなく、統計的に類似したクライアントを結合する必要がある。
本研究では,容易に利用できる勾配情報に基づいて,FLクライアント毎にパーソナライズされたモデルを生成可能なユーザ中心集約ルールを設計する。
提案アルゴリズムは,平均精度,ノード性能,通信オーバヘッドの訓練において,パーソナライズされたFLベースラインを上回っている。
論文 参考訳(メタデータ) (2023-04-25T15:45:37Z) - Intelligent Model Update Strategy for Sequential Recommendation [34.02565495747133]
我々はIntellectReqを紹介した。IntellectReqはエッジで動作するように設計されており、最小の通信オーバーヘッドでパラメータ要求のコスト対効果を評価できる。
本研究では,実時間ユーザ動作を正規分布に変換するために統計マッピング手法を用い,モデルの不確実性を定量化するためにマルチサンプル出力を用いる。
論文 参考訳(メタデータ) (2023-02-14T20:44:12Z) - Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文 参考訳(メタデータ) (2021-08-23T18:26:16Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。