論文の概要: Online and Scalable Model Selection with Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2101.10385v1
- Date: Mon, 25 Jan 2021 20:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 19:20:07.141811
- Title: Online and Scalable Model Selection with Multi-Armed Bandits
- Title(参考訳): マルチアーマッドバンドを用いたオンラインおよびスケーラブルモデル選択
- Authors: Jiayi Xie, Michael Tashman, John Hoffman, Lee Winikor, Rouzbeh Gerami
- Abstract要約: AMS(Automatic Model Selector)は、現実世界のパフォーマンスメトリクスに基づいた入札戦略のスケーラブルなオンライン選択のためのシステムです。
AMSは、最高のパフォーマンスのモデルに最もトラフィックを割り当て、オンラインパフォーマンスが悪い人にトラフィックを減らします。
複数の広告キャンペーンのライブトラフィックテストでは、AMSシステムは広告キャンペーンのパフォーマンス向上に非常に効果的であることが証明されました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many online applications running on live traffic are powered by machine
learning models, for which training, validation, and hyper-parameter tuning are
conducted on historical data. However, it is common for models demonstrating
strong performance in offline analysis to yield poorer performance when
deployed online. This problem is a consequence of the difficulty of training on
historical data in non-stationary environments. Moreover, the machine learning
metrics used for model selection may not sufficiently correlate with real-world
business metrics used to determine the success of the applications being
tested. These problems are particularly prominent in the Real-Time Bidding
(RTB) domain, in which ML models power bidding strategies, and a change in
models will likely affect performance of the advertising campaigns. In this
work, we present Automatic Model Selector (AMS), a system for scalable online
selection of RTB bidding strategies based on real-world performance metrics.
AMS employs Multi-Armed Bandits (MAB) to near-simultaneously run and evaluate
multiple models against live traffic, allocating the most traffic to the
best-performing models while decreasing traffic to those with poorer online
performance, thereby minimizing the impact of inferior models on overall
campaign performance. The reliance on offline data is avoided, instead making
model selections on a case-by-case basis according to actionable business
goals. AMS allows new models to be safely introduced into live campaigns as
soon as they are developed, minimizing the risk to overall performance. In
live-traffic tests on multiple ad campaigns, the AMS system proved highly
effective at improving ad campaign performance.
- Abstract(参考訳): ライブトラフィックで動作する多くのオンラインアプリケーションは、トレーニング、バリデーション、ハイパーパラメータチューニングを履歴データで実行する機械学習モデルを利用している。
しかしながら、オフライン分析で強力なパフォーマンスを示すモデルでは、オンラインデプロイ時のパフォーマンスが低くなることが一般的である。
この問題は、非定常環境での履歴データに関するトレーニングの難しさの結果です。
さらに、モデル選択に使用される機械学習メトリクスは、テスト対象のアプリケーションの成功を決定するために使用される実世界のビジネスメトリクスと十分に相関しないかもしれない。
これらの問題は、MLモデルが入札戦略を駆動するリアルタイム入札(RTB)ドメインにおいて特に顕著であり、モデルの変更が広告キャンペーンのパフォーマンスに影響を与える可能性が高い。
本研究では,実世界のパフォーマンス指標に基づくRTB入札戦略のスケーラブルなオンライン選択システムであるAutomatic Model Selector(AMS)を提案する。
AMSはマルチアーミングバンディット(MAB)を採用し、ライブトラフィックに対する複数のモデルをほぼ同時に実行および評価し、最高のパフォーマンスのモデルに最もトラフィックを割り当て、オンラインパフォーマンスの悪いモデルへのトラフィックを減らし、キャンペーン全体のパフォーマンスに劣るモデルの影響を最小限に抑えます。
オフラインデータへの依存は避けられ、代わりに実行可能なビジネス目標に従ってモデルの選択をケースバイケースで行う。
AMSは、新しいモデルを開発後すぐにライブキャンペーンに安全に導入することを可能にし、全体的なパフォーマンスのリスクを最小限にする。
複数の広告キャンペーンのライブトラフィックテストでは、AMSシステムは広告キャンペーンのパフォーマンス向上に非常に効果的であることが証明されました。
関連論文リスト
- MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
本稿では,車載メタバースにおける拡張現実(AR)サービスの学習モデルを支援するために,メタバースユーザ(MU)にインセンティブを与える新しい没入型モデルトレーディングフレームワークを提案する。
動的ネットワーク条件とプライバシの懸念を考慮して、マルチエージェントマルコフ決定プロセスとしてMSPの報酬決定を定式化する。
実験により,提案フレームワークは,実AR関連車両データセット上でのARサービスにおいて,オブジェクト検出と分類のための高価値モデルを効果的に提供できることが示されている。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Which LLM to Play? Convergence-Aware Online Model Selection with
Time-Increasing Bandits [43.65904435249823]
本稿では,モデルの性能向上を効果的に予測する帯域幅増加アルゴリズムTI-UCBを提案する。
本研究は,より効率的かつ経済的なモデル選択のために,増大する収束パターンを活用することの重要性を強調した。
論文 参考訳(メタデータ) (2024-03-11T23:52:46Z) - GISTEmbed: Guided In-sample Selection of Training Negatives for Text
Embedding Fine-tuning [0.0]
GISTEmbedは、ガイドモデルによる対照的なトレーニングにおいて、バッチ内のネガティブな選択を強化する新しい戦略である。
MTEB(Massive Text Embedding Benchmark)に対してベンチマークされたGISTEmbedは、さまざまなモデルサイズで一貫したパフォーマンス改善を示している。
論文 参考訳(メタデータ) (2024-02-26T18:55:15Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Discriminator-Guided Model-Based Offline Imitation Learning [11.856949845359853]
オフライン模倣学習(英: offline mimicion learning, IL)は、報酬ラベルなしで専門家によるデモンストレーションから意思決定問題を解決する強力な手法である。
本稿では,モデルロールアウトデータの動的正当性と準最適性を同時に識別する識別器を導入する,識別器誘導型モデルベースオフライン学習(DMIL)フレームワークを提案する。
実験結果から,DMILとその拡張は,小規模なデータセット下での最先端のオフラインIL法と比較して,優れた性能とロバスト性が得られることが示された。
論文 参考訳(メタデータ) (2022-07-01T07:28:18Z) - UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning
Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。
自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。
これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文 参考訳(メタデータ) (2021-11-22T10:37:52Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。