論文の概要: Merkel Podcast Corpus: A Multimodal Dataset Compiled from 16 Years of
Angela Merkel's Weekly Video Podcasts
- arxiv url: http://arxiv.org/abs/2205.12194v1
- Date: Tue, 24 May 2022 16:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 18:34:18.931345
- Title: Merkel Podcast Corpus: A Multimodal Dataset Compiled from 16 Years of
Angela Merkel's Weekly Video Podcasts
- Title(参考訳): メルケル・ポッドキャスト「Merkel Podcast Corpus」 - アンジェラ・メルケル監督の週刊ビデオポッドキャスト16年分のマルチモーダル・データセット
- Authors: Debjoy Saha, Shravan Nayak, Timo Baumann
- Abstract要約: これはドイツ語における最初の単一話者コーパスであり、音、視覚、テキストのモダリティは同等の大きさと時間的範囲である。
提案したパイプラインは汎用的であり、トークショーの内容など、同様の性質のデータセットをキュレートするために使用できる。
- 参考スコア(独自算出の注目度): 3.0724051098062093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Merkel Podcast Corpus, an audio-visual-text corpus in German
collected from 16 years of (almost) weekly Internet podcasts of former German
chancellor Angela Merkel. To the best of our knowledge, this is the first
single speaker corpus in the German language consisting of audio, visual and
text modalities of comparable size and temporal extent. We describe the methods
used with which we have collected and edited the data which involves
downloading the videos, transcripts and other metadata, forced alignment,
performing active speaker recognition and face detection to finally curate the
single speaker dataset consisting of utterances spoken by Angela Merkel. The
proposed pipeline is general and can be used to curate other datasets of
similar nature, such as talk show contents. Through various statistical
analyses and applications of the dataset in talking face generation and TTS, we
show the utility of the dataset. We argue that it is a valuable contribution to
the research community, in particular, due to its realistic and challenging
material at the boundary between prepared and spontaneous speech.
- Abstract(参考訳): ドイツのアンゲラ・メルケル元首相の週16年間(ほぼ)のインターネットポッドキャストから収集されたドイツ語の音声・視覚テキストコーパスであるmerkel podcast corpusを紹介する。
私たちの知る限りでは、これはドイツ語における最初の単一の話者コーパスであり、大きさと時間的範囲のオーディオ、ビジュアル、テキストのモダリティからなる。
本稿では,ビデオ,文字起こし,メタデータのダウンロード,強制アライメント,アクティブな話者認識,顔検出などを含むデータを収集・編集し,アンジェラ・メルケルの発声による単一話者データセットを最終的にキュレートする方法について述べる。
提案したパイプラインは汎用的であり、トークショーの内容など、同様の性質のデータセットをキュレートするために使用できる。
発話顔生成とTSにおけるデータセットの様々な統計的分析と応用を通して、データセットの有用性を示す。
特に,準備音声と自発音声の境界線における現実的で挑戦的な資料であるため,研究コミュニティにとって有意義な貢献である。
関連論文リスト
- Mapping the Podcast Ecosystem with the Structured Podcast Research Corpus [23.70786221902932]
私たちは2020年5月から6月にかけて、公開RSSフィードを通じて利用可能な110万以上のポッドキャストの大規模なデータセットを紹介します。
このデータはテキストに限らず、オーディオ機能や370Kエピソードのサブセットのスピーカー・ターンも含んでいる。
このデータを用いて、このポピュラーなインパクトのある媒体の内容、構造、応答性に関する基礎的な調査を行う。
論文 参考訳(メタデータ) (2024-11-12T15:56:48Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Political corpus creation through automatic speech recognition on EU
debates [4.670305538969914]
我々は、EU議会のLIBE委員会の書き起こされたコーパスを提示し、合計360万のランニングワードを提示する。
EUの議会委員会の会合は、政治科学者にとって潜在的に価値のある情報源であるが、データは限られたメタデータと共に音声記録としてのみ公開されているため、簡単には入手できない。
我々は,会議の音声記録の正確なテキスト書き起こしを行うために,最も適切な自動音声認識(ASR)モデルについて検討した。
論文 参考訳(メタデータ) (2023-04-17T10:41:59Z) - ASR Bundestag: A Large-Scale political debate dataset in German [0.0]
本稿では,ドイツ語の自動音声認識のためのデータセットであるASR Bundestagを提案する。
データセットは、教師付きトレーニングに610時間、自己教師型学習に1,038時間、アライメントされたオーディオ書き起こしペアで構成されている。
論文 参考訳(メタデータ) (2023-02-12T21:45:18Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Spot the conversation: speaker diarisation in the wild [108.61222789195209]
そこで本研究では,YouTubeビデオの映像自動ダイアリゼーション手法を提案する。
次に,本手法を半自動データセット生成パイプラインに統合する。
第3に、このパイプラインを使用して、VoxConverseと呼ばれる大規模なダイアリゼーションデータセットを作成します。
論文 参考訳(メタデータ) (2020-07-02T15:55:54Z) - The Gutenberg Dialogue Dataset [1.90365714903665]
現在公開されているオープンドメインの対話データセットは、品質とサイズの間のトレードオフを提供する。
英語で14.8Mの発話の高品質なデータセットを構築し、ドイツ語、オランダ語、スペイン語、ポルトガル語、イタリア語、ハンガリー語で小さなデータセットを構築します。
論文 参考訳(メタデータ) (2020-04-27T12:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。