論文の概要: German Parliamentary Corpus (GerParCor)
- arxiv url: http://arxiv.org/abs/2204.10422v1
- Date: Thu, 21 Apr 2022 22:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 00:55:00.239364
- Title: German Parliamentary Corpus (GerParCor)
- Title(参考訳): ドイツ議会法人(GerParCor)
- Authors: Giuseppe Abrami, Mevl\"ut Bagci, Leon Hammerla, Alexander Mehler
- Abstract要約: ドイツ議会法人(GerParCor)について紹介する
ゲルパーコール(GerParCor)は、3世紀から4カ国にかけてのドイツ語の議定書のジャンル別コーパスである。
すべてのプロトコルはspurCy3のNLPパイプラインによって前処理され、セッション日に関するメタデータが自動的にアノテートされる。
- 参考スコア(独自算出の注目度): 63.17616047204443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parliamentary debates represent a large and partly unexploited treasure trove
of publicly accessible texts. In the German-speaking area, there is a certain
deficit of uniformly accessible and annotated corpora covering all
German-speaking parliaments at the national and federal level. To address this
gap, we introduce the German Parliament Corpus (GerParCor). GerParCor is a
genre-specific corpus of (predominantly historical) German-language
parliamentary protocols from three centuries and four countries, including
state and federal level data. In addition, GerParCor contains conversions of
scanned protocols and, in particular, of protocols in Fraktur converted via an
OCR process based on Tesseract. All protocols were preprocessed by means of the
NLP pipeline of spaCy3 and automatically annotated with metadata regarding
their session date. GerParCor is made available in the XMI format of the UIMA
project. In this way, GerParCor can be used as a large corpus of historical
texts in the field of political communication for various tasks in NLP.
- Abstract(参考訳): 議会の議論は、公開文書の大規模かつ一部未公開の宝庫を表している。
ドイツ語圏では、全国および連邦レベルでドイツ語話者の全ての議会をカバーする統一的なアクセスと注釈付きコーポラの欠如がある。
このギャップに対処するため、ドイツ議会法人(GerParCor)を紹介します。
ゲルパルコル(gerparcor)は、3世紀から4カ国(州や連邦レベルのデータを含む)のドイツ語議会議定書のジャンル別コーパスである。
さらに、GerParCorはスキャンされたプロトコルの変換、特にTesseractをベースとしたOCRプロセスを通じて変換されたFrakturのプロトコルを含んでいる。
すべてのプロトコルはspurCy3のNLPパイプラインによって前処理され、セッション日に関するメタデータが自動的にアノテートされる。
GerParCorはUIMAプロジェクトのXMIフォーマットで利用可能である。
このようにして、GerParCorは、NLPにおける様々なタスクのための政治的コミュニケーションの分野で、歴史的なテキストの大きなコーパスとして使用できる。
関連論文リスト
- SpeakGer: A meta-data enriched speech corpus of German state and federal parliaments [0.12277343096128711]
SpeakGerデータセットは、1947年から2023年までのドイツ連邦議会とドイツ連邦議会の16州すべてからの議論で構成されている。
このデータセットには、聴衆からのスピーチに対する反応と、講演者のパーティー、年齢、選挙区、政党の政治的アライメントに関する情報という形で、豊富なメタデータが含まれている。
論文 参考訳(メタデータ) (2024-10-23T14:00:48Z) - The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings [0.0]
我々は,低リソース言語による大規模かつオープンな音声・テキスト対応データセットを構築するためのアプローチを提案する。
我々は3つのスラヴ語、すなわちクロアチア語、ポーランド語、セルビア語に焦点を当てている。
このパイロット実行の結果は、5000時間以上のスピーチと付随するテキストの書き起こしにまたがる、高品質な3つのデータセットである。
論文 参考訳(メタデータ) (2024-09-23T10:12:18Z) - The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings [3.2405928866433067]
1998年から2022年までのヘブライの立法手続のコーパスであるコーパス・クネセトを提示する。
コーパスは政治的議論のスタイルにおける歴史的展開を調べるのに有効であることを示す。
また,男性話者と女性話者のスタイルの違いについても検討した。
論文 参考訳(メタデータ) (2024-05-28T12:23:39Z) - MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - MUG: A General Meeting Understanding and Generation Benchmark [60.09540662936726]
我々はAliMeeting4MUG Corpusを構築した。
本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
論文 参考訳(メタデータ) (2023-03-24T11:52:25Z) - BasqueParl: A Bilingual Corpus of Basque Parliamentary Transcriptions [3.4447242282168777]
バスク議会文書から新たに編纂されたコーパスの最初のバージョンをリリースする。
このコーパスはバスク語とスペイン語の重厚なコードスイッチングが特徴であり、バスク語やスペイン語のような対照的な言語で政治的言説を研究するための興味深い資源となっている。
論文 参考訳(メタデータ) (2022-05-03T14:02:24Z) - DEBACER: a method for slicing moderated debates [55.705662163385966]
同じ主題を持つブロックに議論を分割することは理解に不可欠である。
議論を適度に分割する新しいアルゴリズムDEBACERを提案する。
論文 参考訳(メタデータ) (2021-12-10T10:39:07Z) - Persian Rhetorical Structure Theory [2.610470075814367]
我々は、修辞論の枠組みで構築されたペルシア語のための談話注釈コーパスを提示する。
私たちのコーパスは150のジャーナリストのテキストで構成されており、各テキストは平均約400語である。
テキストレベルの談話はゴールドセグメンテーションを用いて訓練されており,DPLP談話バンク上に構築されている。
論文 参考訳(メタデータ) (2021-06-25T18:15:47Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z) - Unsupervised Speech Decomposition via Triple Information Bottleneck [63.55007056410914]
音声情報は、言語内容、音色、ピッチ、リズムの4つの構成要素に大別できる。
本稿では,3つの慎重に設計された情報ボトルネックを導入することで,音声をその4つの構成要素に盲目的に分解できるSpeechSplitを提案する。
論文 参考訳(メタデータ) (2020-04-23T16:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。