論文の概要: An Audio-centric Multi-task Learning Framework for Streaming Ads Targeting on Spotify
- arxiv url: http://arxiv.org/abs/2506.18735v1
- Date: Mon, 23 Jun 2025 15:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.046869
- Title: An Audio-centric Multi-task Learning Framework for Streaming Ads Targeting on Spotify
- Title(参考訳): Spotifyでターゲット広告をストリーミングするオーディオ中心型マルチタスク学習フレームワーク
- Authors: Shivam Verma, Vivian Chen, Darren Mei,
- Abstract要約: Spotifyの月間アクティブユーザー数は6億7500万人を超え、何百万時間もの音楽、ポッドキャスト、オーディオブック、ビデオコンテンツを消費している。
この多様なコンテンツ消費パターンは、計算広告に固有の課題をもたらす。
本稿では,クリックスルーレート(CTR)予測を音声中心とマルチモーダルの両方で最適化する新しいフレームワークであるCross-modal Adaptive Mixture-of-Experts(CAMoE)を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spotify, a large-scale multimedia platform, attracts over 675 million monthly active users who collectively consume millions of hours of music, podcasts, audiobooks, and video content. This diverse content consumption pattern introduces unique challenges for computational advertising, which must effectively integrate a variety of ad modalities, including audio, video, and display, within a single user experience. Traditional ad recommendation models, primarily designed for foregrounded experiences, often struggle to reconcile the platform's inherent audio-centrality with the demands of optimizing ad performance across multiple formats and modalities. To overcome these challenges, we introduce Cross-modal Adaptive Mixture-of-Experts (CAMoE), a novel framework for optimizing click-through rate (CTR) prediction in both audio-centric and multi-modal settings. CAMoE enhances traditional mixture-of-experts models by incorporating modality-aware task grouping, adaptive loss masking, and deep-cross networks (DCN) to capture complex feature interactions within a multi-modal ad ecosystem. Through extensive ablation studies, we demonstrate that this approach achieves near Pareto-optimal performance across audio, video, and display ad formats, significantly improving AUC-PR compared to conventional single-task and content-based multi-task learning baselines. When deployed at scale on Spotify's ad serving platform, CAMoE delivered substantial gains, yielding a 14.5% increase in CTR for audio ads, a 1.3% increase for video ads, and a 4.8% reduction in expected cost-per-click (eCPC) for audio slots.
- Abstract(参考訳): 大規模なマルチメディアプラットフォームであるSpotifyは、月間アクティブユーザー数が6億7500万人を超え、何百万時間もの音楽、ポッドキャスト、オーディオブック、ビデオコンテンツを消費している。
この多様なコンテンツ消費パターンは、単一のユーザー体験内に音声、ビデオ、ディスプレイを含む様々な広告モダリティを効果的に統合する必要がある計算広告に固有の課題をもたらす。
従来の広告レコメンデーションモデルは、主に前向きな体験のために設計されており、複数のフォーマットやモダリティで広告パフォーマンスを最適化する要求と、プラットフォーム固有のオーディオ中央値の調整に苦労することが多い。
これらの課題を克服するために,CTR(Cross-modal Adaptive Mixture-of-Experts)を導入した。
CAMoEは、マルチモーダル広告エコシステム内の複雑な機能相互作用を捉えるために、モダリティ対応タスクグループ化、適応損失マスキング、ディープクロスネットワーク(DCN)を組み込むことにより、伝統的なエキスパートモデルの混合を強化する。
広範にわたるアブレーション研究により、従来のシングルタスクやコンテンツベースのマルチタスク学習ベースラインに比べて、オーディオ、ビデオ、ディスプレイ広告フォーマット間でのパレート最適性能が向上し、AUC-PRが大幅に向上することが実証された。
Spotifyの広告配信プラットフォームに大規模に展開したCAMoEは、オーディオ広告のCTRが14.5%増加し、ビデオ広告が1.3%増加し、オーディオスロットのコスト・パー・クリック(eCPC)が4.8%減少した。
関連論文リスト
- Semi-Supervised Audio-Visual Video Action Recognition with Audio Source Localization Guided Mixup [2.80888070977859]
映像と音声を併用した映像行動認識のための音声・視覚SSLを提案する。
UCF-51, Kinetics-400, VGGSoundデータセットの実験では,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-04T05:13:56Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。