Fugu-MT 論文翻訳(概要): SwiftPruner: Reinforced Evolutionary Pruning for Efficient Ad Relevance

論文の概要: SwiftPruner: Reinforced Evolutionary Pruning for Efficient Ad Relevance

arxiv url: http://arxiv.org/abs/2209.00625v1
Date: Tue, 30 Aug 2022 03:05:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-02 13:27:40.050119
Title: SwiftPruner: Reinforced Evolutionary Pruning for Efficient Ad Relevance
Title（参考訳）: SwiftPruner: 効率的な広告関連のための進化的プルーニング強化
Authors: Li Lyna Zhang, Youkow Homma, Yujing Wang, Min Wu, Mao Yang, Ruofei Zhang, Ting Cao, Wei Shen
Abstract要約: 本研究の目的は、構造化プルーニングによる新しい低レイテンシBERTの設計であり、CPUプラットフォーム上でのコールドスタート広告関連性に対するリアルタイムオンライン推論を強化することである。本稿では,SwiftPrunerを提案する。SwiftPrunerは,進化に基づく探索を利用して,最も優れた層ワイドなBERTモデルを自動的に見つけるための効率的なフレームワークである。
参考スコア（独自算出の注目度）: 19.930169700686672
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ad relevance modeling plays a critical role in online advertising systems including Microsoft Bing. To leverage powerful transformers like BERT in this low-latency setting, many existing approaches perform ad-side computations offline. While efficient, these approaches are unable to serve cold start ads, resulting in poor relevance predictions for such ads. This work aims to design a new, low-latency BERT via structured pruning to empower real-time online inference for cold start ads relevance on a CPU platform. Our challenge is that previous methods typically prune all layers of the transformer to a high, uniform sparsity, thereby producing models which cannot achieve satisfactory inference speed with an acceptable accuracy. In this paper, we propose SwiftPruner - an efficient framework that leverages evolution-based search to automatically find the best-performing layer-wise sparse BERT model under the desired latency constraint. Different from existing evolution algorithms that conduct random mutations, we propose a reinforced mutator with a latency-aware multi-objective reward to conduct better mutations for efficiently searching the large space of layer-wise sparse models. Extensive experiments demonstrate that our method consistently achieves higher ROC AUC and lower latency than the uniform sparse baseline and state-of-the-art search methods. Remarkably, under our latency requirement of 1900us on CPU, SwiftPruner achieves a 0.86% higher AUC than the state-of-the-art uniform sparse baseline for BERT-Mini on a large scale real-world dataset. Online A/B testing shows that our model also achieves a significant 11.7% cut in the ratio of defective cold start ads with satisfactory real-time serving latency.
Abstract（参考訳）: 広告関連モデリングは、Microsoft Bingを含むオンライン広告システムにおいて重要な役割を果たす。この低レイテンシ設定でBERTのような強力なトランスフォーマーを活用するために、既存の多くのアプローチはアドサイドの計算をオフラインで行う。効率的ではあるが、これらのアプローチはコールドスタート広告を提供することができない。この研究はcpuプラットフォームにおけるコールドスタート広告のリアルタイムなオンライン推論を可能にするため、構造化プルーニングによる新しい低遅延bertの設計を目指している。我々の課題は、従来の方法ではトランスフォーマーの全ての層を高い均一なスパース性にプルーピングすることで、許容可能な精度で十分な推論速度を達成できないモデルを生成することが一般的である。本稿では,swiftprunerを提案する。swiftprunerは進化ベースの検索を利用して,待ち時間制約下で最もパフォーマンスのよいレイヤ間スパースbertモデルを自動的に見つける効率的なフレームワークである。ランダムな突然変異を行う既存の進化アルゴリズムと異なり、レイヤーワイズスパースモデルの大きな空間を効率的に探索するためのより良い突然変異を行うために、レイテンシを検知する多目的報酬を持つ強化ミュータレータを提案する。大規模な実験により,本手法は一様スパースベースラインや最先端探索法よりも高いROC AUCと低レイテンシを実現することが示された。注目すべきは、CPU上の1900usのレイテンシ要件の下で、SwiftPrunerは、大規模な実世界のデータセット上でのBERT-Miniの均一なスパースベースラインよりも0.86%高いAUCを達成したことです。オンラインA/Bテストによると、当社のモデルは、欠陥のあるコールドスタート広告と十分なリアルタイムサービスレイテンシの比率で11.7%の削減を実現している。

関連論文リスト

SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping [30.85025293160079]
生成プロセスにおける高周波コンポーネント、または後続のステップは、推論遅延に不均等に寄与する。ステップ冗長性と非条件分岐冗長性の2つの主要な非効率性の原因を同定する。本稿では、不要な生成ステップを選択的に省略して効率を向上させる自動ステップスキッピング戦略を提案する。
論文参考訳（メタデータ） (2025-06-10T15:35:29Z)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Scalable and Effective Negative Sample Generation for Hyperedge Prediction [55.9298019975967]
ハイパーエッジ予測は、Webベースのアプリケーションにおける複雑なマルチエンタリティ相互作用を理解するために不可欠である。従来の手法では、正と負のインスタンスの不均衡により、高品質な負のサンプルを生成するのが困難であることが多い。本稿では,これらの課題に対処するために拡散モデルを利用するハイパーエッジ予測(SEHP)フレームワークのスケーラブルで効果的な負のサンプル生成について述べる。
論文参考訳（メタデータ） (2024-11-19T09:16:25Z)
FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。 Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文参考訳（メタデータ） (2024-07-01T16:14:37Z)
PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。 PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2024-05-10T08:02:20Z)
etuner: A Redundancy-Aware Framework for Efficient Continual Learning Application on Edge Devices [47.365775210055396]
推論精度、微調整実行時間、エネルギー効率を最適化する効率的なエッジ連続学習フレームワークであるETunerを提案する。実験結果から,ETunerは全体の微調整実行時間を64%削減し,エネルギー消費量を56%削減し,即時モデル微調整アプローチよりも平均推定精度を1.75%向上した。
論文参考訳（メタデータ） (2024-01-30T02:41:05Z)
Efficient Architecture Search via Bi-level Data Pruning [70.29970746807882]
この研究は、DARTSの双方向最適化におけるデータセット特性の重要な役割を探求する先駆者となった。我々は、スーパーネット予測力学を計量として活用する新しいプログレッシブデータプルーニング戦略を導入する。 NAS-Bench-201サーチスペース、DARTSサーチスペース、MobileNetのようなサーチスペースに関する総合的な評価は、BDPがサーチコストを50%以上削減することを検証する。
論文参考訳（メタデータ） (2023-12-21T02:48:44Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
Constraint-aware and Ranking-distilled Token Pruning for Efficient Transformer Inference [18.308180927492643]
ToPは、未精製モデルの最終層から初期精製モデルまで有効なトークンランキングを蒸留する、希釈型トークン蒸留技術である。 ToPは、GLUE上での競合精度を達成しつつ、BERTの平均FLOPを8.1倍削減し、Intel CPU上では7.4倍の遅延速度を提供する。
論文参考訳（メタデータ） (2023-06-26T03:06:57Z)
COPR: Consistency-Oriented Pre-Ranking for Online Advertising [27.28920707332434]
オンライン広告のための一貫性指向のプレグレードフレームワークを提案する。チャンクベースのサンプリングモジュールとプラグアンドプレイのランクアライメントモジュールを使用して、ECPMでランク付けされた結果の一貫性を明示的に最適化する。 Taobaoのディスプレイ広告システムに展開すると、最大で+12.3%のCTRと+5.6%のRPMを実現している。
論文参考訳（メタデータ） (2023-06-06T09:08:40Z)
An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文参考訳（メタデータ） (2022-07-08T11:42:05Z)
GDP: Stabilized Neural Network Pruning via Gates with Differentiable Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。 GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。 CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文参考訳（メタデータ） (2021-09-06T03:17:10Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。