論文の概要: The Spotify Podcast Dataset
- arxiv url: http://arxiv.org/abs/2004.04270v3
- Date: Sat, 5 Dec 2020 05:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:53:21.760129
- Title: The Spotify Podcast Dataset
- Title(参考訳): Spotifyのポッドキャストデータセット
- Authors: Ann Clifton, Aasish Pappu, Sravana Reddy, Yongze Yu, Jussi Karlgren,
Ben Carterette, Rosie Jones
- Abstract要約: Podcastデータセットは,約100エピソードのオーディオファイルと付随する書き起こしのセットである。
これは47,000時間以上の音声の書き起こしであり、従来の音声からテキストへのコーパスよりも大きい。
オーディオフォーマットとしては、ポッドキャストは例えば放送ニュースよりもスタイルタイプが多様であり、ビデオ研究では通常研究されるよりも多くのジャンルを含んでいる。
- 参考スコア(独自算出の注目度): 13.491034901672167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Podcasts are a relatively new form of audio media. Episodes appear on a
regular cadence, and come in many different formats and levels of formality.
They can be formal news journalism or conversational chat; fiction or
non-fiction. They are rapidly growing in popularity and yet have been
relatively little studied. As an audio format, podcasts are more varied in
style and production types than, say, broadcast news, and contain many more
genres than typically studied in video research. The medium is therefore a rich
domain with many research avenues for the IR and NLP communities. We present
the Spotify Podcast Dataset, a set of approximately 100K podcast episodes
comprised of raw audio files along with accompanying ASR transcripts. This
represents over 47,000 hours of transcribed audio, and is an order of magnitude
larger than previous speech-to-text corpora.
- Abstract(参考訳): Podcastsは比較的新しいタイプのオーディオメディアだ。
エピソードはレギュラー・ケイデンスに登場し、様々な形式や形式で登場している。
正式なニュースジャーナリズムや会話の会話、フィクションやノンフィクションの場合もある。
人気は急速に高まりつつあり、研究は比較的少ない。
オーディオフォーマットとしては、ポッドキャストは例えば放送ニュースよりもスタイルやプロダクションタイプが多様であり、ビデオ研究では通常研究されるよりも多くのジャンルを含んでいる。
したがって、この媒体は、IRとNLPコミュニティのための多くの研究ルートを持つ豊富なドメインである。
Spotify Podcast Datasetは、生のオーディオファイルと付随するASR書き起こしからなる約100Kのポッドキャストエピソードのセットです。
これは47,000時間以上の音声の書き起こしであり、従来の音声テキストコーパスよりも桁違いに大きい。
関連論文リスト
- Mapping the Podcast Ecosystem with the Structured Podcast Research Corpus [23.70786221902932]
私たちは2020年5月から6月にかけて、公開RSSフィードを通じて利用可能な110万以上のポッドキャストの大規模なデータセットを紹介します。
このデータはテキストに限らず、オーディオ機能や370Kエピソードのサブセットのスピーカー・ターンも含んでいる。
このデータを用いて、このポピュラーなインパクトのある媒体の内容、構造、応答性に関する基礎的な調査を行う。
論文 参考訳(メタデータ) (2024-11-12T15:56:48Z) - PODTILE: Facilitating Podcast Episode Browsing with Auto-generated Chapters [15.856812659691238]
会話データをセグメント化するための細調整エンコーダデコーダトランスであるPODTILEを導入する。
PODTILEは入力書き起こしのための章の遷移とタイトルを同時に生成する。
以上の結果から, 自動生成チャプタは, あまり人気のないポッドキャストのエンゲージメントに有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2024-10-21T16:17:22Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale [58.46845567087977]
Voiceboxは、大規模音声のための最も多用途なテキスト誘導生成モデルである。
モノまたはクロスランガルのゼロショットテキスト音声合成、ノイズ除去、コンテンツ編集、スタイル変換、多様なサンプル生成に使用できる。
最先端のゼロショットTSモデルであるVALL-E(5.9%対1.9%のワードエラー率)とオーディオの類似性(0.580対0.681)は20倍高速である。
論文 参考訳(メタデータ) (2023-06-23T16:23:24Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - NewsPod: Automatic and Interactive News Podcasts [18.968547560235347]
NewsPodは自動的に生成されたインタラクティブなニュースポッドキャストだ。
ポッドキャストはニュースイベントを中心にセグメントに分けられ、各セグメントは質問と回答の会話として構成される。
NewsPodの新たな側面は、リスナーが自身の質問をすることでポッドキャストと対話し、自動的に生成された回答を受け取ることを可能にする。
論文 参考訳(メタデータ) (2022-02-15T02:37:04Z) - Topic Modeling on Podcast Short-Text Metadata [0.9539495585692009]
短いテキストのモデリング技術を用いて,ポッドキャストのメタデータやタイトル,記述から関連トピックを発見できる可能性を評価する。
非負行列因子化モデリングフレームワークにおいて、しばしばポッドキャストメタデータに現れる名前付きエンティティ(NE)に対する新しい戦略を提案する。
SpotifyとiTunesとDeezerの既存の2つのデータセットに対する実験により、提案したドキュメント表現であるNEiCEがベースラインの一貫性を改善していることが示された。
論文 参考訳(メタデータ) (2022-01-12T11:07:05Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z) - A Baseline Analysis for Podcast Abstractive Summarization [18.35061145103997]
本稿では,Spotify Podcastデータセットを用いたポッドキャスト要約のベースライン解析について述べる。
研究者が現在の最先端の事前訓練モデルを理解するのを助け、より良いモデルを作るための基盤を構築することを目的としている。
論文 参考訳(メタデータ) (2020-08-24T18:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。