論文の概要: Identifying Introductions in Podcast Episodes from Automatically
Generated Transcripts
- arxiv url: http://arxiv.org/abs/2110.07096v1
- Date: Thu, 14 Oct 2021 00:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 14:02:49.602765
- Title: Identifying Introductions in Podcast Episodes from Automatically
Generated Transcripts
- Title(参考訳): 自動生成トランスクリプトからのポッドキャストエピソードの紹介
- Authors: Elise Jing, Kristiana Schneck, Dennis Egan, Scott A. Waterman
- Abstract要約: 400以上のポッドキャストエピソードの完全な書き起こしのデータセットを新たに構築する。
これらの紹介には、エピソードのトピック、ホスト、ゲストに関する情報が含まれている。
我々は、事前訓練されたBERTと異なる拡張戦略に基づいて、3つのTransformerモデルを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the volume of long-form spoken-word content such as podcasts explodes,
many platforms desire to present short, meaningful, and logically coherent
segments extracted from the full content. Such segments can be consumed by
users to sample content before diving in, as well as used by the platform to
promote and recommend content. However, little published work is focused on the
segmentation of spoken-word content, where the errors (noise) in transcripts
generated by automatic speech recognition (ASR) services poses many challenges.
Here we build a novel dataset of complete transcriptions of over 400 podcast
episodes, in which we label the position of introductions in each episode.
These introductions contain information about the episodes' topics, hosts, and
guests, providing a valuable summary of the episode content, as it is created
by the authors. We further augment our dataset with word substitutions to
increase the amount of available training data. We train three Transformer
models based on the pre-trained BERT and different augmentation strategies,
which achieve significantly better performance compared with a static embedding
model, showing that it is possible to capture generalized, larger-scale
structural information from noisy, loosely-organized speech data. This is
further demonstrated through an analysis of the models' inner architecture. Our
methods and dataset can be used to facilitate future work on the
structure-based segmentation of spoken-word content.
- Abstract(参考訳): ポッドキャストのような長文の音声コンテンツが爆発するにつれて、多くのプラットフォームは、全コンテンツから抽出された短く有意義で論理的に一貫性のあるセグメントを提示したいと思っている。
このようなセグメントは、ユーザーが入水する前にコンテンツをサンプルしたり、プラットフォームがコンテンツを宣伝したり推奨したりするのに使うことができる。
しかし、自動音声認識(asr)サービスによって生成された書き起こしの誤り(ノイズ)が多くの課題を提起する、音声単語コンテンツのセグメンテーションにはほとんど注目されていない。
ここでは、400以上のポッドキャストエピソードの完全な書き起こしの新たなデータセットを構築し、各エピソードの紹介位置をラベル付けする。
これらの紹介には、エピソードのトピック、ホスト、ゲストに関する情報が含まれており、著者によって作成されたエピソードの内容の貴重な要約を提供する。
さらに、利用可能なトレーニングデータの量を増やすために、単語置換によるデータセットをさらに強化します。
本研究では,3つのトランスフォーマーモデルを,事前学習したBERTと異なる拡張戦略に基づいて学習し,静的埋め込みモデルと比較して性能が大幅に向上し,ノイズの多いゆるやかな音声データから大規模構造情報をキャプチャできることを示す。
これはモデルの内部アーキテクチャの分析を通じてさらに実証される。
提案手法とデータセットは、音声単語コンテンツの構造に基づくセグメンテーションに関する今後の作業を容易にするために使用できる。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Topic Modeling on Podcast Short-Text Metadata [0.9539495585692009]
短いテキストのモデリング技術を用いて,ポッドキャストのメタデータやタイトル,記述から関連トピックを発見できる可能性を評価する。
非負行列因子化モデリングフレームワークにおいて、しばしばポッドキャストメタデータに現れる名前付きエンティティ(NE)に対する新しい戦略を提案する。
SpotifyとiTunesとDeezerの既存の2つのデータセットに対する実験により、提案したドキュメント表現であるNEiCEがベースラインの一貫性を改善していることが示された。
論文 参考訳(メタデータ) (2022-01-12T11:07:05Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Detecting Extraneous Content in Podcasts [6.335863593761816]
本稿では,ポッドキャスト記述と音声書き起こしの不要なコンテンツを検出するために,テキストパターンとリスニングパターンの両方を利用するモデルを提案する。
本モデルでは,ROUGEスコアを瞬時に改善し,要約で生成された外部コンテンツを減らすことができることを示す。
論文 参考訳(メタデータ) (2021-03-03T18:30:50Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - PodSumm -- Podcast Audio Summarization [0.0]
テキストドメインからのガイダンスを用いて,ポッドキャストの要約を自動的に作成する手法を提案する。
このタスクにはデータセットが不足しているため、内部データセットをキュレートし、データ拡張の効果的なスキームを見つけ、アノテータから要約を集めるためのプロトコルを設計する。
本手法は, ROUGE-F(1/2/L) スコア0.63/0.53/0.63をデータセット上で達成する。
論文 参考訳(メタデータ) (2020-09-22T04:49:33Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。