論文の概要: Mutual Learning for Finetuning Click-Through Rate Prediction Models
- arxiv url: http://arxiv.org/abs/2406.12087v1
- Date: Mon, 17 Jun 2024 20:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:47:35.831209
- Title: Mutual Learning for Finetuning Click-Through Rate Prediction Models
- Title(参考訳): クリックスルーレート予測モデルのための相互学習
- Authors: Ibrahim Can Yilmaz, Said Aldemir,
- Abstract要約: 本稿では,相互学習アルゴリズムが対等である場合に,いかに有用かを示す。
CriteoデータセットとAvazuデータセットの実験では、相互学習アルゴリズムがモデルの性能を最大0.66%改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Click-Through Rate (CTR) prediction has become an essential task in digital industries, such as digital advertising or online shopping. Many deep learning-based methods have been implemented and have become state-of-the-art models in the domain. To further improve the performance of CTR models, Knowledge Distillation based approaches have been widely used. However, most of the current CTR prediction models do not have much complex architectures, so it's hard to call one of them 'cumbersome' and the other one 'tiny'. On the other hand, the performance gap is also not very large between complex and simple models. So, distilling knowledge from one model to the other could not be worth the effort. Under these considerations, Mutual Learning could be a better approach, since all the models could be improved mutually. In this paper, we showed how useful the mutual learning algorithm could be when it is between equals. In our experiments on the Criteo and Avazu datasets, the mutual learning algorithm improved the performance of the model by up to 0.66% relative improvement.
- Abstract(参考訳): クリックスルーレート(CTR)予測はデジタル広告やオンラインショッピングといったデジタル産業において重要な課題となっている。
多くのディープラーニングベースの手法が実装され、ドメインにおける最先端のモデルとなっている。
CTRモデルの性能向上のために、知識蒸留に基づくアプローチが広く用いられている。
しかし、現在のCTR予測モデルのほとんどは、あまり複雑なアーキテクチャを持っていないため、それらのうちの1つを「面倒」、もう1つを「汚い」とするのは困難です。
一方、複雑なモデルと単純なモデルの間にも、パフォーマンスのギャップはそれほど大きくない。
そのため、あるモデルから別のモデルへの知識の蒸留は、その努力に値するものではなかった。
これらの考慮の下では、相互学習は、すべてのモデルを相互に改善できるため、より良いアプローチになり得る。
本稿では,相互学習アルゴリズムが対等である場合に,いかに有用かを示す。
CriteoデータセットとAvazuデータセットの実験では、相互学習アルゴリズムがモデルの性能を最大0.66%改善した。
関連論文リスト
- Leave No Knowledge Behind During Knowledge Distillation: Towards Practical and Effective Knowledge Distillation for Code-Switching ASR Using Realistic Data [42.65516074428803]
本稿では,現実的な音声のみのデータを用いた音声認識のための,より効率的なモデルを構築するためのフレームワークを提案する。
提案手法は,教師モデルの知識と,小さな補助モデルからの洞察を両立させる。
ベースライン法と教師モデルを全テストセットで比較しながら,5倍高速な生成速度を持つ2時間小型モデルを得ることに成功した。
論文 参考訳(メタデータ) (2024-07-15T10:25:14Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
Reinforcement Learning from Human Feedback (RLHF)のような最先端技術は、しばしば2つの段階から構成される。
1)教師付き微調整(SFT)では,人間の実演データからモデルを微調整する。
2)選好学習では,選好データを用いて報奨モデルを学習し,そのモデルを微調整する強化学習ステップで活用する。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Co-training and Co-distillation for Quality Improvement and Compression
of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。
ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。
本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文 参考訳(メタデータ) (2023-11-06T03:29:00Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - FedKD: Communication Efficient Federated Learning via Knowledge
Distillation [56.886414139084216]
フェデレーション学習は、分散データからインテリジェントモデルを学ぶために広く使用されている。
フェデレートラーニングでは、クライアントはモデルラーニングの各イテレーションでローカルモデルの更新を伝える必要がある。
本稿では,知識蒸留に基づくコミュニケーション効率のよいフェデレーション学習手法を提案する。
論文 参考訳(メタデータ) (2021-08-30T15:39:54Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Interleaving Learning, with Application to Neural Architecture Search [12.317568257671427]
インターリーブ学習(IL)と呼ばれる新しい機械学習フレームワークを提案する。
私たちのフレームワークでは、一連のモデルが相互に連携してデータエンコーダを学習します。
CIFAR-10, CIFAR-100, ImageNetの画像分類にインターリービング学習を適用した。
論文 参考訳(メタデータ) (2021-03-12T00:54:22Z) - Ensemble Knowledge Distillation for CTR Prediction [46.92149090885551]
我々は知識蒸留(KD)に基づく新しいモデルトレーニング戦略を提案する。
KDは、教師モデルから学んだ知識を学生モデルに移すための教師学生学習フレームワークである。
本稿では,教師のゲーティングや蒸留損失による早期停止など,CTR予測のアンサンブル化を促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-08T23:37:58Z) - Mutual Modality Learning for Video Action Classification [74.83718206963579]
ビデオアクション分類のための単一モデルにマルチモーダルを組み込む方法を示す。
我々はSomething-v2ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2020-11-04T21:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。