論文の概要: The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings
- arxiv url: http://arxiv.org/abs/2405.18115v1
- Date: Tue, 28 May 2024 12:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:39:08.032018
- Title: The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings
- Title(参考訳): The Knesset Corpus: Annotated Corpus of Hebrew Parliamentary Proceedings
- Authors: Gili Goldin, Nick Howell, Noam Ordan, Ella Rabinovich, Shuly Wintner,
- Abstract要約: 1998年から2022年までのヘブライの立法手続のコーパスであるコーパス・クネセトを提示する。
コーパスは政治的議論のスタイルにおける歴史的展開を調べるのに有効であることを示す。
また,男性話者と女性話者のスタイルの違いについても検討した。
- 参考スコア(独自算出の注目度): 3.2405928866433067
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present the Knesset Corpus, a corpus of Hebrew parliamentary proceedings containing over 30 million sentences (over 384 million tokens) from all the (plenary and committee) protocols held in the Israeli parliament between 1998 and 2022. Sentences are annotated with morpho-syntactic information and are associated with detailed meta-information reflecting demographic and political properties of the speakers, based on a large database of parliament members and factions that we compiled. We discuss the structure and composition of the corpus and the various processing steps we applied to it. To demonstrate the utility of this novel dataset we present two use cases. We show that the corpus can be used to examine historical developments in the style of political discussions by showing a reduction in lexical richness in the proceedings over time. We also investigate some differences between the styles of men and women speakers. These use cases exemplify the potential of the corpus to shed light on important trends in the Israeli society, supporting research in linguistics, political science, communication, law, etc.
- Abstract(参考訳): 我々は、1998年から2022年にかけてイスラエル議会で行われた全ての(議会および委員会)議定書から3000万件以上の文(3億8400万枚以上のトークン)を含むヘブライ議会手続のコーパスであるクネセト・コーパスを提示する。
文章にはモルフォ・シンタクティック情報に注釈が付けられており、私たちが編纂した議員や派閥の大規模なデータベースに基づいて、話者の人口統計学的・政治的特性を反映した詳細なメタ情報に関連付けられている。
本稿では,コーパスの構造と構成,およびそれに適用した各種処理手順について論じる。
この新たなデータセットの有用性を示すために,2つのユースケースを提案する。
コーパスは、時間とともに手続きにおける語彙豊かさの低下を示すことによって、政治的議論のスタイルの歴史的展開を調べるのに利用できることを示す。
また,男性話者と女性話者のスタイルの違いについても検討した。
これらのユースケースは、イスラエル社会における重要なトレンドに光を当て、言語学、政治科学、コミュニケーション、法律などの研究を支援するためのコーパスの可能性を示すものである。
関連論文リスト
- SpeakGer: A meta-data enriched speech corpus of German state and federal parliaments [0.12277343096128711]
SpeakGerデータセットは、1947年から2023年までのドイツ連邦議会とドイツ連邦議会の16州すべてからの議論で構成されている。
このデータセットには、聴衆からのスピーチに対する反応と、講演者のパーティー、年齢、選挙区、政党の政治的アライメントに関する情報という形で、豊富なメタデータが含まれている。
論文 参考訳(メタデータ) (2024-10-23T14:00:48Z) - IsraParlTweet: The Israeli Parliamentary and Twitter Resource [2.249916681499244]
IsraParlTweetは、1992-2023年のKnesset(イスラエル議会)と2008-2023年のKnessetのメンバーによるTwitter投稿のリンクコーパスである。
IsraParlTweetは、さまざまな量的および質的な分析を行い、イスラエルの政治談話に関する貴重な洞察を提供するために使用することができる。
論文 参考訳(メタデータ) (2024-05-30T17:21:15Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - A Greek Parliament Proceedings Dataset for Computational Linguistics and
Political Analysis [4.396860522241306]
我々は,1989年から2020年までの期間を経時的に延ばす,ギリシャ議会紀要のキュレートされたデータセットを紹介した。
5,355の議会記録ファイルから抽出された、100万以上のスピーチと豊富なメタデータで構成されている。
論文 参考訳(メタデータ) (2022-10-23T23:23:28Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - BasqueParl: A Bilingual Corpus of Basque Parliamentary Transcriptions [3.4447242282168777]
バスク議会文書から新たに編纂されたコーパスの最初のバージョンをリリースする。
このコーパスはバスク語とスペイン語の重厚なコードスイッチングが特徴であり、バスク語やスペイン語のような対照的な言語で政治的言説を研究するための興味深い資源となっている。
論文 参考訳(メタデータ) (2022-05-03T14:02:24Z) - German Parliamentary Corpus (GerParCor) [63.17616047204443]
ドイツ議会法人(GerParCor)について紹介する
ゲルパーコール(GerParCor)は、3世紀から4カ国にかけてのドイツ語の議定書のジャンル別コーパスである。
すべてのプロトコルはspurCy3のNLPパイプラインによって前処理され、セッション日に関するメタデータが自動的にアノテートされる。
論文 参考訳(メタデータ) (2022-04-21T22:06:55Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。