論文の概要: PodSumm -- Podcast Audio Summarization
- arxiv url: http://arxiv.org/abs/2009.10315v1
- Date: Tue, 22 Sep 2020 04:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 21:48:48.344589
- Title: PodSumm -- Podcast Audio Summarization
- Title(参考訳): podsumm --podオーディオ要約
- Authors: Aneesh Vartakavi and Amanmeet Garg
- Abstract要約: テキストドメインからのガイダンスを用いて,ポッドキャストの要約を自動的に作成する手法を提案する。
このタスクにはデータセットが不足しているため、内部データセットをキュレートし、データ拡張の効果的なスキームを見つけ、アノテータから要約を集めるためのプロトコルを設計する。
本手法は, ROUGE-F(1/2/L) スコア0.63/0.53/0.63をデータセット上で達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The diverse nature, scale, and specificity of podcasts present a unique
challenge to content discovery systems. Listeners often rely on text
descriptions of episodes provided by the podcast creators to discover new
content. Some factors like the presentation style of the narrator and
production quality are significant indicators of subjective user preference but
are difficult to quantify and not reflected in the text descriptions provided
by the podcast creators. We propose the automated creation of podcast audio
summaries to aid in content discovery and help listeners to quickly preview
podcast content before investing time in listening to an entire episode. In
this paper, we present a method to automatically construct a podcast summary
via guidance from the text-domain. Our method performs two key steps, namely,
audio to text transcription and text summary generation. Motivated by a lack of
datasets for this task, we curate an internal dataset, find an effective scheme
for data augmentation, and design a protocol to gather summaries from
annotators. We fine-tune a PreSumm[10] model with our augmented dataset and
perform an ablation study. Our method achieves ROUGE-F(1/2/L) scores of
0.63/0.53/0.63 on our dataset. We hope these results may inspire future
research in this direction.
- Abstract(参考訳): ポッドキャストの多様な性質、規模、特異性は、コンテンツ発見システムにとってユニークな課題である。
リスナーはしばしば、ポッドキャスト作者が新しいコンテンツを見つけるために提供したエピソードのテキスト記述に頼っている。
ナレーターの提示スタイルや生産品質などの要因は、主観的ユーザの好みを示す重要な指標であるが、ポッドキャスト作成者が提供するテキスト記述の定量化や反映が難しい。
本稿では,ポッドキャスト音声要約の自動作成によるコンテンツ発見の支援と,全エピソードを聴く時間を費やす前に,聴取者がポッドキャストコンテンツをすばやくプレビューする支援を提案する。
本稿では,テキストドメインからの指導によりポッドキャスト要約を自動的に構築する手法を提案する。
本手法は音声からテキストへの書き起こしと要約生成という2つの重要なステップを実行する。
このタスクにはデータセットが不足しているため、内部データセットをキュレートし、データ拡張の効果的なスキームを見つけ、アノテータから要約を集めるためのプロトコルを設計する。
我々は、PreSumm[10]モデルを拡張現実データセットに微調整し、アブレーション研究を行う。
本手法は, ROUGE-F(1/2/L)スコア0.63/0.53/0.63を達成する。
これらの結果がこの方向に将来の研究を刺激することを期待している。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Mapping the Podcast Ecosystem with the Structured Podcast Research Corpus [23.70786221902932]
私たちは2020年5月から6月にかけて、公開RSSフィードを通じて利用可能な110万以上のポッドキャストの大規模なデータセットを紹介します。
このデータはテキストに限らず、オーディオ機能や370Kエピソードのサブセットのスピーカー・ターンも含んでいる。
このデータを用いて、このポピュラーなインパクトのある媒体の内容、構造、応答性に関する基礎的な調査を行う。
論文 参考訳(メタデータ) (2024-11-12T15:56:48Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Topic Modeling on Podcast Short-Text Metadata [0.9539495585692009]
短いテキストのモデリング技術を用いて,ポッドキャストのメタデータやタイトル,記述から関連トピックを発見できる可能性を評価する。
非負行列因子化モデリングフレームワークにおいて、しばしばポッドキャストメタデータに現れる名前付きエンティティ(NE)に対する新しい戦略を提案する。
SpotifyとiTunesとDeezerの既存の2つのデータセットに対する実験により、提案したドキュメント表現であるNEiCEがベースラインの一貫性を改善していることが示された。
論文 参考訳(メタデータ) (2022-01-12T11:07:05Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Spotify at TREC 2020: Genre-Aware Abstractive Podcast Summarization [4.456617185465443]
この挑戦の目的は、ポッドキャストエピソードに存在する重要な情報を含む短く有益な要約を生成することでした。
ジャンルと名前付きエンティティを明確に考慮した2つの要約モデルを提案する。
我々のモデルは抽象的であり、創造者が提供する記述を根拠となる真実の要約として利用している。
論文 参考訳(メタデータ) (2021-04-07T18:27:28Z) - Detecting Extraneous Content in Podcasts [6.335863593761816]
本稿では,ポッドキャスト記述と音声書き起こしの不要なコンテンツを検出するために,テキストパターンとリスニングパターンの両方を利用するモデルを提案する。
本モデルでは,ROUGEスコアを瞬時に改善し,要約で生成された外部コンテンツを減らすことができることを示す。
論文 参考訳(メタデータ) (2021-03-03T18:30:50Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - A Baseline Analysis for Podcast Abstractive Summarization [18.35061145103997]
本稿では,Spotify Podcastデータセットを用いたポッドキャスト要約のベースライン解析について述べる。
研究者が現在の最先端の事前訓練モデルを理解するのを助け、より良いモデルを作るための基盤を構築することを目的としている。
論文 参考訳(メタデータ) (2020-08-24T18:38:42Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。