論文の概要: AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation
- arxiv url: http://arxiv.org/abs/2509.06452v1
- Date: Mon, 08 Sep 2025 08:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.024389
- Title: AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation
- Title(参考訳): AudioBoost: 合成クエリ生成によるSpotify検索におけるオーディオブック検索性の向上
- Authors: Enrico Palumbo, Gustavo Penha, Alva Liu, Marcus Eltscheminov, Jefferson Carvalho dos Santos, Alice Wang, Hugues Bouchard, Humberto Jesús Corona Pampin, Michelle Tran Luu,
- Abstract要約: Spotifyは最近カタログの一部としてオーディオブックを導入し、音楽やポッドキャストを補完している。
本研究では,Spotifyの検索におけるオーディオブック検索性を向上するシステムであるAudioBoostを提案する。
オフライン評価により、合成クエリは検索可能性を高め、高品質であることを示す。
- 参考スコア(独自算出の注目度): 2.7054579713225153
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spotify has recently introduced audiobooks as part of its catalog, complementing its music and podcast offering. Search is often the first entry point for users to access new items, and an important goal for Spotify is to support users in the exploration of the audiobook catalog. More specifically, we would like to enable users without a specific item in mind to broadly search by topic, genre, story tropes, decade, and discover audiobooks, authors and publishers they may like. To do this, we need to 1) inspire users to type more exploratory queries for audiobooks and 2) augment our retrieval systems to better deal with exploratory audiobook queries. This is challenging in a cold-start scenario, where we have a retrievabiliy bias due to the little amount of user interactions with audiobooks compared to previously available items such as music and podcast content. To address this, we propose AudioBoost, a system to boost audiobook retrievability in Spotify's Search via synthetic query generation. AudioBoost leverages Large Language Models (LLMs) to generate synthetic queries conditioned on audiobook metadata. The synthetic queries are indexed both in the Query AutoComplete (QAC) and in the Search Retrieval engine to improve query formulation and retrieval at the same time. We show through offline evaluation that synthetic queries increase retrievability and are of high quality. Moreover, results from an online A/B test show that AudioBoost leads to a +0.7% in audiobook impressions, +1.22% in audiobook clicks, and +1.82% in audiobook exploratory query completions.
- Abstract(参考訳): Spotifyは最近カタログの一部としてオーディオブックを導入し、音楽やポッドキャストを補完している。
検索はしばしばユーザーが新しいアイテムにアクセスするための最初のエントリポイントであり、Spotifyの重要なゴールはオーディオブックカタログの探索でユーザーをサポートすることである。
具体的には、特定の項目を念頭に置いていないユーザが、トピック、ジャンル、ストーリーのトポロジ、10年、そしてオーディオブック、著者、出版社を広く検索できるようにしたいと考えています。
これを行うには、私たちは
1) ユーザに対して,より探索的なクエリをオーディオブックに入力するように促す。
2)探索的オーディオブッククエリをよりよく扱えるように,検索システムを強化した。
これは、音楽やポッドキャストのコンテンツなど、これまで利用できたものに比べて、オーディオブックとのユーザインタラクションの量が少なかったため、リトライアベイラビリティのバイアスがある、コールドスタートシナリオでは難しい。
そこで本稿では,AudioBoostを提案する。AudioBoostは,Spotifyの検索において,合成クエリ生成によるオーディオブック検索性を向上するシステムである。
AudioBoostはLarge Language Models (LLM)を活用して、オーディオブックメタデータに条件付き合成クエリを生成する。
合成クエリは、クエリオートコンプリート(QAC)と検索検索エンジンの両方でインデックス化され、クエリの定式化と検索が同時に改善される。
オフライン評価により、合成クエリは検索可能性を高め、高品質であることを示す。
さらに、オンラインA/Bテストの結果、AudioBoostはオーディオブックのインプレッションが+0.7%、オーディオブックのクリックが+1.22%、オーディオブックの探索的なクエリが+1.82%に達することが示された。
関連論文リスト
- Step-Audio 2 Technical Report [120.58375054866815]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。
遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文 参考訳(メタデータ) (2025-07-22T14:23:55Z) - Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。
AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。
音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文 参考訳(メタデータ) (2025-03-06T00:10:26Z) - AudioBERT: Audio Knowledge Augmented Language Model [11.136112399898481]
近年の研究では、テキストのみのデータセットで事前訓練された言語モデルには、基本的な視覚的知識が欠けていることが確認されている。
聴覚知識を評価するための2つの新しいタスクからなるAuditoryBenchというデータセットを構築した。
このベンチマークを用いて分析した結果,言語モデルにも聴覚的知識が不足していることが判明した。
本稿では,BERTの聴覚知識を検索ベースで拡張する新しい手法であるAudioBERTを提案する。
論文 参考訳(メタデータ) (2024-09-12T16:36:39Z) - Large-Scale Automatic Audiobook Creation [38.6585398185208]
オンライン電子書籍から高品質なオーディオブックを生成するために,ニューラルテキスト音声合成の最近の進歩を活用している。
我々のシステムでは、ユーザーはオーディオブックの発話速度やスタイル、感情的なイントネーションをカスタマイズでき、望まれる声にマッチすることもできます。
この作業は、オープンライセンスのオーディオブック5万件と、ユーザが自分でカスタマイズしたオーディオブックを素早く作れるインタラクティブなデモに寄与した。
論文 参考訳(メタデータ) (2023-09-07T11:41:23Z) - Killing two birds with one stone: Can an audio captioning system also be
used for audio-text retrieval? [0.0]
本研究は、音声テキスト検索(ATR)とAAC(Automated Audio Captioning)の関係について検討する。
ATRでは、任意のオーディオ/カプセル対に対して得られた標準のクロスエントロピー損失値を用いる。
ClothoとAudioCapsのデータセットの実験結果は、この単純なアプローチによる適切なリコール値を示している。
論文 参考訳(メタデータ) (2023-08-29T07:53:17Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Audio Retrieval with WavText5K and CLAP Training [8.362098382773265]
我々は、WavText5Kと呼ぶ約5万のWebオーディオテキストペアの新しいコレクションを提案する。
検索システムのトレーニングに使用すると、WavText5Kは他のオーディオキャプションデータセットよりもパフォーマンスが向上した。
本フレームワークは,テキストエンコーダと2つのオーディオエンコーダ,およびコントラスト学習目標を用いて,言語と音声コンテンツを接続することを学ぶ。
論文 参考訳(メタデータ) (2022-09-28T17:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。