論文の概要: SpeakGer: A meta-data enriched speech corpus of German state and federal parliaments
- arxiv url: http://arxiv.org/abs/2410.17886v1
- Date: Wed, 23 Oct 2024 14:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:56:17.847734
- Title: SpeakGer: A meta-data enriched speech corpus of German state and federal parliaments
- Title(参考訳): SpeakGer: メタデータに富んだドイツ国家と連邦議会のスピーチコーパス
- Authors: Kai-Robin Lange, Carsten Jentsch,
- Abstract要約: SpeakGerデータセットは、1947年から2023年までのドイツ連邦議会とドイツ連邦議会の16州すべてからの議論で構成されている。
このデータセットには、聴衆からのスピーチに対する反応と、講演者のパーティー、年齢、選挙区、政党の政治的アライメントに関する情報という形で、豊富なメタデータが含まれている。
- 参考スコア(独自算出の注目度): 0.12277343096128711
- License:
- Abstract: The application of natural language processing on political texts as well as speeches has become increasingly relevant in political sciences due to the ability to analyze large text corpora which cannot be read by a single person. But such text corpora often lack critical meta information, detailing for instance the party, age or constituency of the speaker, that can be used to provide an analysis tailored to more fine-grained research questions. To enable researchers to answer such questions with quantitative approaches such as natural language processing, we provide the SpeakGer data set, consisting of German parliament debates from all 16 federal states of Germany as well as the German Bundestag from 1947-2023, split into a total of 10,806,105 speeches. This data set includes rich meta data in form of information on both reactions from the audience towards the speech as well as information about the speaker's party, their age, their constituency and their party's political alignment, which enables a deeper analysis. We further provide three exploratory analyses, detailing topic shares of different parties throughout time, a descriptive analysis of the development of the age of an average speaker as well as a sentiment analysis of speeches of different parties with regards to the COVID-19 pandemic.
- Abstract(参考訳): 自然言語処理の政治的テキストやスピーチへの適用は、一人が読めない大きなテキストコーパスを分析する能力によって、政治科学においてますます重要になっている。
しかし、このようなテキストコーパスは、しばしば重要なメタ情報がなく、例えば、話者のパーティー、年齢または選挙区について詳述し、よりきめ細かい研究課題に合わせた分析を提供するために使用できる。
このような質問に自然言語処理などの定量的アプローチで答えられるように、1947-2023年のドイツ連邦議会とドイツ連邦議会の議論からなるSpeakGerデータセットを、合計10,806,105のスピーチに分割した。
このデータセットには、聴衆からのスピーチに対する反応と、話者のパーティー、年齢、選挙区、政党の政治的アライメントに関する情報という形で、豊かなメタデータが含まれており、より深い分析を可能にする。
さらに,3つの探索分析,時間を通じて異なる当事者の話題共有の詳細な説明,平均話者の年齢の発達に関する記述的分析,および新型コロナウイルスのパンデミックに関する各当事者のスピーチの感情分析も提供する。
関連論文リスト
- L(u)PIN: LLM-based Political Ideology Nowcasting [1.124958340749622]
LLMの潜在的知識を活用することで,各議員のイデオロギー的立場を分析する手法を提案する。
この方法により、選択の軸として政治家のスタンスを評価することができ、選択の話題・論争に関して政治家のスタンスを柔軟に測定することができる。
論文 参考訳(メタデータ) (2024-05-12T16:14:07Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Speaker attribution in German parliamentary debates with QLoRA-adapted
large language models [0.0]
我々は,2017-2021年のドイツ議会討論会において,大型言語モデルLlama 2の話者属性の自動化の可能性について検討した。
本稿の結果は,話者帰属の自動化における大規模言語モデルの能力に光を当て,政治談話の計算分析や意味的役割ラベルシステムの開発に期待できる道のりを明らかにした。
論文 参考訳(メタデータ) (2023-09-18T16:06:16Z) - The ParlaSent Multilingual Training Dataset for Sentiment Identification in Parliamentary Proceedings [0.0]
そこで本論文では,感傷的に手動で注釈付けした7言語による文のトレーニングデータセットを提案する。
さらに、政治科学応用のためのドメイン固有多言語トランスフォーマー言語モデルについても紹介する。
論文 参考訳(メタデータ) (2023-09-18T14:01:06Z) - Improving Mandarin Prosodic Structure Prediction with Multi-level
Contextual Information [68.89000132126536]
本研究は,音声間言語情報を用いて韻律構造予測(PSP)の性能を向上させることを提案する。
提案手法は,韻律語(PW),韻律語(PPH),国際語句(IPH)の予測におけるF1スコアの向上を実現する。
論文 参考訳(メタデータ) (2023-08-31T09:19:15Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Multi-aspect Multilingual and Cross-lingual Parliamentary Speech
Analysis [1.759288298635146]
我々は,2017年から2020年にかけての6つの国民議会の合同および比較分析に先進的NLP法を適用した。
ParlaMintデータセットコレクションからテキスト中の感情と感情を分析します。
その結果, 分析国間での共通点や, 意外な相違点が認められた。
論文 参考訳(メタデータ) (2022-07-03T14:31:32Z) - BasqueParl: A Bilingual Corpus of Basque Parliamentary Transcriptions [3.4447242282168777]
バスク議会文書から新たに編纂されたコーパスの最初のバージョンをリリースする。
このコーパスはバスク語とスペイン語の重厚なコードスイッチングが特徴であり、バスク語やスペイン語のような対照的な言語で政治的言説を研究するための興味深い資源となっている。
論文 参考訳(メタデータ) (2022-05-03T14:02:24Z) - German Parliamentary Corpus (GerParCor) [63.17616047204443]
ドイツ議会法人(GerParCor)について紹介する
ゲルパーコール(GerParCor)は、3世紀から4カ国にかけてのドイツ語の議定書のジャンル別コーパスである。
すべてのプロトコルはspurCy3のNLPパイプラインによって前処理され、セッション日に関するメタデータが自動的にアノテートされる。
論文 参考訳(メタデータ) (2022-04-21T22:06:55Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z) - Unsupervised Speech Decomposition via Triple Information Bottleneck [63.55007056410914]
音声情報は、言語内容、音色、ピッチ、リズムの4つの構成要素に大別できる。
本稿では,3つの慎重に設計された情報ボトルネックを導入することで,音声をその4つの構成要素に盲目的に分解できるSpeechSplitを提案する。
論文 参考訳(メタデータ) (2020-04-23T16:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。