論文の概要: PolInterviews -- A Dataset of German Politician Public Broadcast Interviews
- arxiv url: http://arxiv.org/abs/2501.04484v2
- Date: Thu, 16 Jan 2025 15:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:07:48.664370
- Title: PolInterviews -- A Dataset of German Politician Public Broadcast Interviews
- Title(参考訳): PolInterviews - ドイツの政治家による公共放送インタビューのデータセット
- Authors: Lukas Birkenmaier, Laureen Sieber, Felix Bergstein,
- Abstract要約: 本稿では,高官のドイツ人政治家を特集した公開インタビューのデータセットについて紹介する。
インタビューはYouTubeからソースされ、書き起こされ、話者識別のために処理され、タイディでオープンな形式で保存された。
このデータセットは、5つの主要なインタビューフォーマットで、33人の異なるドイツの政治家との99のインタビューで構成され、合計28,146の文が含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents a novel dataset of public broadcast interviews featuring high-ranking German politicians. The interviews were sourced from YouTube, transcribed, processed for speaker identification, and stored in a tidy and open format. The dataset comprises 99 interviews with 33 different German politicians across five major interview formats, containing a total of 28,146 sentences. As the first of its kind, this dataset offers valuable opportunities for research on various aspects of political communication in the (German) political contexts, such as agenda-setting, interviewer dynamics, or politicians' self-presentation.
- Abstract(参考訳): 本稿では,高官のドイツ人政治家を特集した公開インタビューのデータセットについて紹介する。
インタビューはYouTubeからソースされ、書き起こされ、話者識別のために処理され、タイディでオープンな形式で保存された。
このデータセットは、5つの主要なインタビューフォーマットで、33人の異なるドイツの政治家との99のインタビューで構成され、合計28,146の文が含まれている。
この種の最初のものとして、このデータセットは、アジェンダ・セッティング、インタビュアー・ダイナミクス、政治家の自己表現など、(ドイツ)政治的文脈における政治的コミュニケーションの様々な側面を研究するための貴重な機会を提供する。
関連論文リスト
- NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews [65.35458530702442]
我々はジャーナリストのインタビューに焦点をあて、コミュニケーションの基盤と豊富なデータに富んだドメインに焦点をあてる。
我々はNPRとCNNから4万人の2人によるインフォメーションインタビューのデータセットをキュレートする。
LLMは、人間のインタビュアーよりも、認識を使い、より高いレベルの質問に目を向ける可能性がはるかに低い。
論文 参考訳(メタデータ) (2024-11-21T01:37:38Z) - SpeakGer: A meta-data enriched speech corpus of German state and federal parliaments [0.12277343096128711]
SpeakGerデータセットは、1947年から2023年までのドイツ連邦議会とドイツ連邦議会の16州すべてからの議論で構成されている。
このデータセットには、聴衆からのスピーチに対する反応と、講演者のパーティー、年齢、選挙区、政党の政治的アライメントに関する情報という形で、豊富なメタデータが含まれている。
論文 参考訳(メタデータ) (2024-10-23T14:00:48Z) - The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings [0.0]
我々は,低リソース言語による大規模かつオープンな音声・テキスト対応データセットを構築するためのアプローチを提案する。
我々は3つのスラヴ語、すなわちクロアチア語、ポーランド語、セルビア語に焦点を当てている。
このパイロット実行の結果は、5000時間以上のスピーチと付随するテキストの書き起こしにまたがる、高品質な3つのデータセットである。
論文 参考訳(メタデータ) (2024-09-23T10:12:18Z) - InterviewBot: Real-Time End-to-End Dialogue System to Interview Students
for College Admission [18.630848902825406]
InterviewBotは会話履歴とカスタマイズされたトピックをコヒーレントな埋め込みスペースに統合する。
7,361件の人間対人間インタビューの音声録音を自動転写し、440件を手作業で微調整・評価する。
InterviewBotは、その回答をインタビューデータと比較することで統計的にテストし、プロのインタビュアーや様々な学生にリアルタイムで対話させることによって動的にテストする。
論文 参考訳(メタデータ) (2023-03-27T09:46:56Z) - EZInterviewer: To Improve Job Interview Performance with Mock Interview
Generator [60.2099886983184]
EZInterviewerは、オンライン面接データから学び、求職者に模擬面接サービスを提供する。
低リソースの課題に対処するため、EZInterviewerはインタビューダイアログのごく小さなセットで訓練されている。
論文 参考訳(メタデータ) (2023-01-03T07:00:30Z) - Knowledge-Grounded Conversational Data Augmentation with Generative
Conversational Networks [76.11480953550013]
生成会話ネットワークを用いて会話データを自動的に生成する。
我々は、Topical Chatデータセット上で、知識のない会話に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-22T22:37:14Z) - Merkel Podcast Corpus: A Multimodal Dataset Compiled from 16 Years of
Angela Merkel's Weekly Video Podcasts [3.0724051098062093]
これはドイツ語における最初の単一話者コーパスであり、音、視覚、テキストのモダリティは同等の大きさと時間的範囲である。
提案したパイプラインは汎用的であり、トークショーの内容など、同様の性質のデータセットをキュレートするために使用できる。
論文 参考訳(メタデータ) (2022-05-24T16:48:07Z) - Open Source MagicData-RAMC: A Rich Annotated Mandarin
Conversational(RAMC) Speech Dataset [51.75617364782418]
本稿では,MagicData-RAMCと呼ばれる高品質なリッチ・アノテート・マンダリン音声データセットを提案する。
MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
論文 参考訳(メタデータ) (2022-03-31T07:01:06Z) - MediaSum: A Large-scale Media Interview Dataset for Dialogue
Summarization [15.659166674845949]
MediaSumは、463.6Kのテキストと抽象的な要約からなる大規模メディアインタビューデータセットである。
我々は、nprおよびcnnからインタビュー記録を収集し、概要とトピック記述を要約として採用する。
論文 参考訳(メタデータ) (2021-03-11T01:47:42Z) - PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文 参考訳(メタデータ) (2020-10-06T09:04:58Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。