論文の概要: Merkel Podcast Corpus: A Multimodal Dataset Compiled from 16 Years of
Angela Merkel's Weekly Video Podcasts
- arxiv url: http://arxiv.org/abs/2205.12194v1
- Date: Tue, 24 May 2022 16:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 18:34:18.931345
- Title: Merkel Podcast Corpus: A Multimodal Dataset Compiled from 16 Years of
Angela Merkel's Weekly Video Podcasts
- Title(参考訳): メルケル・ポッドキャスト「Merkel Podcast Corpus」 - アンジェラ・メルケル監督の週刊ビデオポッドキャスト16年分のマルチモーダル・データセット
- Authors: Debjoy Saha, Shravan Nayak, Timo Baumann
- Abstract要約: これはドイツ語における最初の単一話者コーパスであり、音、視覚、テキストのモダリティは同等の大きさと時間的範囲である。
提案したパイプラインは汎用的であり、トークショーの内容など、同様の性質のデータセットをキュレートするために使用できる。
- 参考スコア(独自算出の注目度): 3.0724051098062093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Merkel Podcast Corpus, an audio-visual-text corpus in German
collected from 16 years of (almost) weekly Internet podcasts of former German
chancellor Angela Merkel. To the best of our knowledge, this is the first
single speaker corpus in the German language consisting of audio, visual and
text modalities of comparable size and temporal extent. We describe the methods
used with which we have collected and edited the data which involves
downloading the videos, transcripts and other metadata, forced alignment,
performing active speaker recognition and face detection to finally curate the
single speaker dataset consisting of utterances spoken by Angela Merkel. The
proposed pipeline is general and can be used to curate other datasets of
similar nature, such as talk show contents. Through various statistical
analyses and applications of the dataset in talking face generation and TTS, we
show the utility of the dataset. We argue that it is a valuable contribution to
the research community, in particular, due to its realistic and challenging
material at the boundary between prepared and spontaneous speech.
- Abstract(参考訳): ドイツのアンゲラ・メルケル元首相の週16年間(ほぼ)のインターネットポッドキャストから収集されたドイツ語の音声・視覚テキストコーパスであるmerkel podcast corpusを紹介する。
私たちの知る限りでは、これはドイツ語における最初の単一の話者コーパスであり、大きさと時間的範囲のオーディオ、ビジュアル、テキストのモダリティからなる。
本稿では,ビデオ,文字起こし,メタデータのダウンロード,強制アライメント,アクティブな話者認識,顔検出などを含むデータを収集・編集し,アンジェラ・メルケルの発声による単一話者データセットを最終的にキュレートする方法について述べる。
提案したパイプラインは汎用的であり、トークショーの内容など、同様の性質のデータセットをキュレートするために使用できる。
発話顔生成とTSにおけるデータセットの様々な統計的分析と応用を通して、データセットの有用性を示す。
特に,準備音声と自発音声の境界線における現実的で挑戦的な資料であるため,研究コミュニティにとって有意義な貢献である。
関連論文リスト
- Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - Political corpus creation through automatic speech recognition on EU
debates [4.670305538969914]
我々は、EU議会のLIBE委員会の書き起こされたコーパスを提示し、合計360万のランニングワードを提示する。
EUの議会委員会の会合は、政治科学者にとって潜在的に価値のある情報源であるが、データは限られたメタデータと共に音声記録としてのみ公開されているため、簡単には入手できない。
我々は,会議の音声記録の正確なテキスト書き起こしを行うために,最も適切な自動音声認識(ASR)モデルについて検討した。
論文 参考訳(メタデータ) (2023-04-17T10:41:59Z) - ASR Bundestag: A Large-Scale political debate dataset in German [0.0]
本稿では,ドイツ語の自動音声認識のためのデータセットであるASR Bundestagを提案する。
データセットは、教師付きトレーニングに610時間、自己教師型学習に1,038時間、アライメントされたオーディオ書き起こしペアで構成されている。
論文 参考訳(メタデータ) (2023-02-12T21:45:18Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Identifying Introductions in Podcast Episodes from Automatically
Generated Transcripts [0.0]
400以上のポッドキャストエピソードの完全な書き起こしのデータセットを新たに構築する。
これらの紹介には、エピソードのトピック、ホスト、ゲストに関する情報が含まれている。
我々は、事前訓練されたBERTと異なる拡張戦略に基づいて、3つのTransformerモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-14T00:34:51Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Spot the conversation: speaker diarisation in the wild [108.61222789195209]
そこで本研究では,YouTubeビデオの映像自動ダイアリゼーション手法を提案する。
次に,本手法を半自動データセット生成パイプラインに統合する。
第3に、このパイプラインを使用して、VoxConverseと呼ばれる大規模なダイアリゼーションデータセットを作成します。
論文 参考訳(メタデータ) (2020-07-02T15:55:54Z) - The Gutenberg Dialogue Dataset [1.90365714903665]
現在公開されているオープンドメインの対話データセットは、品質とサイズの間のトレードオフを提供する。
英語で14.8Mの発話の高品質なデータセットを構築し、ドイツ語、オランダ語、スペイン語、ポルトガル語、イタリア語、ハンガリー語で小さなデータセットを構築します。
論文 参考訳(メタデータ) (2020-04-27T12:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。