論文の概要: Zero-shot Cross-domain Knowledge Distillation: A Case study on YouTube Music
- arxiv url: http://arxiv.org/abs/2603.28994v1
- Date: Mon, 30 Mar 2026 20:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.856929
- Title: Zero-shot Cross-domain Knowledge Distillation: A Case study on YouTube Music
- Title(参考訳): ゼロショットクロスドメイン知識蒸留:YouTube Musicのケーススタディ
- Authors: Srivaths Ranganathan, Nikhil Khani, Shawn Andrews, Chieh Lo, Li Wei, Gergo Varady, Jochen Klingenhoefer, Tim Steele, Bernardo Cunha, Aniruddh Nath, Yanwei Song,
- Abstract要約: 知識蒸留(KD)は、ライブトラフィックを提供する遅延感度モデルの品質向上に広く利用されている。
クロスドメインKDは、教師をデータリッチソースドメインから活用することで、コスト効率の良い代替手段を提供する。
マルチタスクランキングモデルにゼロショットクロスドメインKDを用いるケーススタディを提案する。
- 参考スコア(独自算出の注目度): 1.7419416877418235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) has been widely used to improve the quality of latency sensitive models serving live traffic. However, applying KD in production recommender systems with low traffic is challenging: the limited amount of data restricts the teacher model size, and the cost of training a large dedicated teacher may not be justified. Cross-domain KD offers a cost-effective alternative by leveraging a teacher from a data-rich source domain, but introduces unique technical difficulties, as the features, user interfaces, and prediction tasks can significantly differ. We present a case study of using zero-shot cross-domain KD for multi-task ranking models, transferring knowledge from a (100x) large-scale video recommendation platform (YouTube) to a music recommendation application with significantly lower traffic. We share offline and live experiment results and present findings evaluating different KD techniques in this setting across two ranking models on the music app. Our results demonstrate that zero-shot cross-domain KD is a practical and effective approach to improve the performance of ranking models on low traffic surfaces.
- Abstract(参考訳): 知識蒸留(KD)は、ライブトラフィックを提供する遅延感度モデルの品質向上に広く利用されている。
しかし,KDを低トラフィックで適用することは困難であり,データ量制限により教師モデルのサイズが制限され,大規模な専任教員の養成コストが正当化されない場合がある。
クロスドメインKDは、教師をデータリッチソースドメインから活用することで、コスト効率の良い代替手段を提供するが、機能、ユーザインターフェイス、予測タスクが大きく異なるため、ユニークな技術的困難をもたらす。
マルチタスクランキングモデルにゼロショットクロスドメインKDを用い、100倍の大規模ビデオレコメンデーションプラットフォーム(YouTube)から、トラフィックが大幅に少ない音楽レコメンデーションアプリケーションに知識を伝達するケーススタディを提案する。
本研究は,音楽アプリの2つのランキングモデルにまたがって,オフラインおよびライブ実験結果を共有し,異なるKD手法の評価を行った。
この結果から,ゼロショットクロスドメインKDは,低トラフィック面におけるランキングモデルの性能向上のための実用的で効果的な手法であることが示唆された。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Categories of Response-Based, Feature-Based, and Relation-Based
Knowledge Distillation [10.899753512019933]
知識蒸留(KD)は、軽量ネットワークの最適化を目的としている。
KDは主に知識抽出と蒸留戦略を含む。
本稿では,知識カテゴリ,蒸留スキーム,アルゴリズムなどを含む総合的なKD調査を行う。
論文 参考訳(メタデータ) (2023-06-19T03:42:44Z) - Continuation KD: Improved Knowledge Distillation through the Lens of
Continuation Optimization [29.113990037893597]
知識蒸留(KD)は、より大規模なモデル(教師)から知識を伝達することで、小さなモデル(学生)のパフォーマンスを向上させる自然言語理解(NLU)タスクに広く用いられている。
既存のKDテクニックは、教師の出力のノイズを軽減するものではない。
従来の手法と比較して,これらの問題に対処する新しいKD手法を提案する。
論文 参考訳(メタデータ) (2022-12-12T16:00:20Z) - AUTOKD: Automatic Knowledge Distillation Into A Student Architecture
Family [10.51711053229702]
ディープラーニングの最先端の成果は、より大きなモデルを使用することによって、着実に改善されている。
知識蒸留(KD)は理論上、小学生がより大きな教師モデルをエミュレートすることを可能にするが、実際には優れた学生アーキテクチャを選択するにはかなりの専門知識が必要である。
本稿では,教師の学習に長けているという特性を共有する学生建築の家族を探すことを提案する。
論文 参考訳(メタデータ) (2021-11-05T15:20:37Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。