論文の概要: Rhapsody: A Dataset for Highlight Detection in Podcasts
- arxiv url: http://arxiv.org/abs/2505.19429v1
- Date: Mon, 26 May 2025 02:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.117043
- Title: Rhapsody: A Dataset for Highlight Detection in Podcasts
- Title(参考訳): Rhapsody:Podcastにおけるハイライト検出用データセット
- Authors: Younghan Park, Anuj Diwan, David Harwath, Eunsol Choi,
- Abstract要約: Rhapsodyは、YouTubeで最も再生されたエピソードのセグメントレベルのハイライトと組み合わせた機能です。
ポッドキャストハイライト検出をセグメントレベルのバイナリ分類タスクとして設定する。
ドメイン内のデータを微調整したモデルは、ゼロショットのパフォーマンスを大幅に上回る。
これらの結果は,長文音声メディアにおけるきめ細かい情報アクセスの課題を浮き彫りにした。
- 参考スコア(独自算出の注目度): 49.1662517033426
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Podcasts have become daily companions for half a billion users. Given the enormous amount of podcast content available, highlights provide a valuable signal that helps viewers get the gist of an episode and decide if they want to invest in listening to it in its entirety. However, identifying highlights automatically is challenging due to the unstructured and long-form nature of the content. We introduce Rhapsody, a dataset of 13K podcast episodes paired with segment-level highlight scores derived from YouTube's 'most replayed' feature. We frame the podcast highlight detection as a segment-level binary classification task. We explore various baseline approaches, including zero-shot prompting of language models and lightweight finetuned language models using segment-level classification heads. Our experimental results indicate that even state-of-the-art language models like GPT-4o and Gemini struggle with this task, while models finetuned with in-domain data significantly outperform their zero-shot performance. The finetuned model benefits from leveraging both speech signal features and transcripts. These findings highlight the challenges for fine-grained information access in long-form spoken media.
- Abstract(参考訳): Podcastsは毎日5億人のユーザーを抱えている。
膨大な数のポッドキャストコンテンツが利用可能であることを考えると、ハイライトは視聴者がエピソードのギストを入手し、全編を聴きたいかどうかを決めるのに役立つ貴重な信号を提供する。
しかし、コンテンツの非構造化と長期的性質のため、ハイライトの自動識別は困難である。
Rhapsodyは、YouTubeの「最も再生された」機能に由来するセグメントレベルのハイライトスコアと組み合わせた、13Kポッドキャストエピソードのデータセットである。
ポッドキャストハイライト検出をセグメントレベルのバイナリ分類タスクとして設定する。
言語モデルのゼロショットプロンプトや,セグメントレベルの分類ヘッドを用いた軽量な微調整言語モデルなど,さまざまなベースラインアプローチについて検討する。
実験の結果,GPT-4o や Gemini のような最先端言語モデルでさえこの問題に対処する一方で,ドメイン内データを微調整したモデルではゼロショット性能が著しく向上していることがわかった。
微調整モデルの利点は、音声信号の特徴と書き起こしの両方を活用することである。
これらの結果は,長文音声メディアにおけるきめ細かい情報アクセスの課題を浮き彫りにした。
関連論文リスト
- MoonCast: High-Quality Zero-Shot Podcast Generation [81.29927724674602]
MoonCastは高品質のゼロショットポッドキャスト生成ソリューションである。
テキストのみのソースから自然なポッドキャストスタイルの音声を合成することを目的としている。
実験では、MoonCastはベースラインを上回っている。
論文 参考訳(メタデータ) (2025-03-18T15:25:08Z) - Annotation Tool and Dataset for Fact-Checking Podcasts [1.6804613362826175]
ポッドキャストはウェブ上で人気のあるメディアであり、多言語コンテンツが多種多様で、しばしば不確定なクレームを含んでいる。
我々のツールは、再生中にコンテキストのリアルタイムアノテーションを有効にすることで、これらの課題に対処するための新しいアプローチを提供する。
このユニークな機能は、ユーザがポッドキャストを聴いて、チェック価値のあるクレーム、クレームスパン、コンテキストエラーなどの重要な要素を同時にアノテートすることを可能にする。
論文 参考訳(メタデータ) (2025-02-03T14:34:17Z) - PODTILE: Facilitating Podcast Episode Browsing with Auto-generated Chapters [15.856812659691238]
会話データをセグメント化するための細調整エンコーダデコーダトランスであるPODTILEを導入する。
PODTILEは入力書き起こしのための章の遷移とタイトルを同時に生成する。
以上の結果から, 自動生成チャプタは, あまり人気のないポッドキャストのエンゲージメントに有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2024-10-21T16:17:22Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Topic Modeling on Podcast Short-Text Metadata [0.9539495585692009]
短いテキストのモデリング技術を用いて,ポッドキャストのメタデータやタイトル,記述から関連トピックを発見できる可能性を評価する。
非負行列因子化モデリングフレームワークにおいて、しばしばポッドキャストメタデータに現れる名前付きエンティティ(NE)に対する新しい戦略を提案する。
SpotifyとiTunesとDeezerの既存の2つのデータセットに対する実験により、提案したドキュメント表現であるNEiCEがベースラインの一貫性を改善していることが示された。
論文 参考訳(メタデータ) (2022-01-12T11:07:05Z) - Identifying Introductions in Podcast Episodes from Automatically
Generated Transcripts [0.0]
400以上のポッドキャストエピソードの完全な書き起こしのデータセットを新たに構築する。
これらの紹介には、エピソードのトピック、ホスト、ゲストに関する情報が含まれている。
我々は、事前訓練されたBERTと異なる拡張戦略に基づいて、3つのTransformerモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-14T00:34:51Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - PodSumm -- Podcast Audio Summarization [0.0]
テキストドメインからのガイダンスを用いて,ポッドキャストの要約を自動的に作成する手法を提案する。
このタスクにはデータセットが不足しているため、内部データセットをキュレートし、データ拡張の効果的なスキームを見つけ、アノテータから要約を集めるためのプロトコルを設計する。
本手法は, ROUGE-F(1/2/L) スコア0.63/0.53/0.63をデータセット上で達成する。
論文 参考訳(メタデータ) (2020-09-22T04:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。