論文の概要: SwiftPruner: Reinforced Evolutionary Pruning for Efficient Ad Relevance
- arxiv url: http://arxiv.org/abs/2209.00625v1
- Date: Tue, 30 Aug 2022 03:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:27:40.050119
- Title: SwiftPruner: Reinforced Evolutionary Pruning for Efficient Ad Relevance
- Title(参考訳): SwiftPruner: 効率的な広告関連のための進化的プルーニング強化
- Authors: Li Lyna Zhang, Youkow Homma, Yujing Wang, Min Wu, Mao Yang, Ruofei
Zhang, Ting Cao, Wei Shen
- Abstract要約: 本研究の目的は、構造化プルーニングによる新しい低レイテンシBERTの設計であり、CPUプラットフォーム上でのコールドスタート広告関連性に対するリアルタイムオンライン推論を強化することである。
本稿では,SwiftPrunerを提案する。SwiftPrunerは,進化に基づく探索を利用して,最も優れた層ワイドなBERTモデルを自動的に見つけるための効率的なフレームワークである。
- 参考スコア(独自算出の注目度): 19.930169700686672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ad relevance modeling plays a critical role in online advertising systems
including Microsoft Bing. To leverage powerful transformers like BERT in this
low-latency setting, many existing approaches perform ad-side computations
offline. While efficient, these approaches are unable to serve cold start ads,
resulting in poor relevance predictions for such ads. This work aims to design
a new, low-latency BERT via structured pruning to empower real-time online
inference for cold start ads relevance on a CPU platform. Our challenge is that
previous methods typically prune all layers of the transformer to a high,
uniform sparsity, thereby producing models which cannot achieve satisfactory
inference speed with an acceptable accuracy.
In this paper, we propose SwiftPruner - an efficient framework that leverages
evolution-based search to automatically find the best-performing layer-wise
sparse BERT model under the desired latency constraint. Different from existing
evolution algorithms that conduct random mutations, we propose a reinforced
mutator with a latency-aware multi-objective reward to conduct better mutations
for efficiently searching the large space of layer-wise sparse models.
Extensive experiments demonstrate that our method consistently achieves higher
ROC AUC and lower latency than the uniform sparse baseline and state-of-the-art
search methods. Remarkably, under our latency requirement of 1900us on CPU,
SwiftPruner achieves a 0.86% higher AUC than the state-of-the-art uniform
sparse baseline for BERT-Mini on a large scale real-world dataset. Online A/B
testing shows that our model also achieves a significant 11.7% cut in the ratio
of defective cold start ads with satisfactory real-time serving latency.
- Abstract(参考訳): 広告関連モデリングは、Microsoft Bingを含むオンライン広告システムにおいて重要な役割を果たす。
この低レイテンシ設定でBERTのような強力なトランスフォーマーを活用するために、既存の多くのアプローチはアドサイドの計算をオフラインで行う。
効率的ではあるが、これらのアプローチはコールドスタート広告を提供することができない。
この研究はcpuプラットフォームにおけるコールドスタート広告のリアルタイムなオンライン推論を可能にするため、構造化プルーニングによる新しい低遅延bertの設計を目指している。
我々の課題は、従来の方法ではトランスフォーマーの全ての層を高い均一なスパース性にプルーピングすることで、許容可能な精度で十分な推論速度を達成できないモデルを生成することが一般的である。
本稿では,swiftprunerを提案する。swiftprunerは進化ベースの検索を利用して,待ち時間制約下で最もパフォーマンスのよいレイヤ間スパースbertモデルを自動的に見つける効率的なフレームワークである。
ランダムな突然変異を行う既存の進化アルゴリズムと異なり、レイヤーワイズスパースモデルの大きな空間を効率的に探索するためのより良い突然変異を行うために、レイテンシを検知する多目的報酬を持つ強化ミュータレータを提案する。
大規模な実験により,本手法は一様スパースベースラインや最先端探索法よりも高いROC AUCと低レイテンシを実現することが示された。
注目すべきは、CPU上の1900usのレイテンシ要件の下で、SwiftPrunerは、大規模な実世界のデータセット上でのBERT-Miniの均一なスパースベースラインよりも0.86%高いAUCを達成したことです。
オンラインA/Bテストによると、当社のモデルは、欠陥のあるコールドスタート広告と十分なリアルタイムサービスレイテンシの比率で11.7%の削減を実現している。
関連論文リスト
- Efficient Architecture Search via Bi-level Data Pruning [70.29970746807882]
この研究は、DARTSの双方向最適化におけるデータセット特性の重要な役割を探求する先駆者となった。
我々は、スーパーネット予測力学を計量として活用する新しいプログレッシブデータプルーニング戦略を導入する。
NAS-Bench-201サーチスペース、DARTSサーチスペース、MobileNetのようなサーチスペースに関する総合的な評価は、BDPがサーチコストを50%以上削減することを検証する。
論文 参考訳(メタデータ) (2023-12-21T02:48:44Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Constraint-aware and Ranking-distilled Token Pruning for Efficient
Transformer Inference [18.308180927492643]
ToPは、未精製モデルの最終層から初期精製モデルまで有効なトークンランキングを蒸留する、希釈型トークン蒸留技術である。
ToPは、GLUE上での競合精度を達成しつつ、BERTの平均FLOPを8.1倍削減し、Intel CPU上では7.4倍の遅延速度を提供する。
論文 参考訳(メタデータ) (2023-06-26T03:06:57Z) - COPR: Consistency-Oriented Pre-Ranking for Online Advertising [27.28920707332434]
オンライン広告のための一貫性指向のプレグレードフレームワークを提案する。
チャンクベースのサンプリングモジュールとプラグアンドプレイのランクアライメントモジュールを使用して、ECPMでランク付けされた結果の一貫性を明示的に最適化する。
Taobaoのディスプレイ広告システムに展開すると、最大で+12.3%のCTRと+5.6%のRPMを実現している。
論文 参考訳(メタデータ) (2023-06-06T09:08:40Z) - An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。
本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T11:42:05Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.9790236766474201]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERTベースとGPT-2の推論遅延を最大4.8倍,3.72倍に改善し,0.75%の精度低下と平均パープレキシティが得られた。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - Mitigating Divergence of Latent Factors via Dual Ascent for Low Latency
Event Prediction Models [0.739706777911384]
現実世界のコンテンツレコメンデーションマーケットプレースは、特定の振る舞いを示し、一般的な静的なオフラインデータセットでは必ずしも明らかでない制約によって課される。
本稿では,モデルの潜在ベクトルに対して,慎重に選択された制約セットを付与することにより,モデルパラメータのばらつきを防止する体系的手法を提案する。
我々は,分散インスタンス数の大幅な削減と,ユーザエクスペリエンスと収益の両面で大きな改善を示すオンライン実験を実施している。
論文 参考訳(メタデータ) (2021-11-15T16:09:48Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。