論文の概要: BasqueParl: A Bilingual Corpus of Basque Parliamentary Transcriptions
- arxiv url: http://arxiv.org/abs/2205.01506v1
- Date: Tue, 3 May 2022 14:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:47:03.412719
- Title: BasqueParl: A Bilingual Corpus of Basque Parliamentary Transcriptions
- Title(参考訳): BasqueParl:Basque Parliamentary Transcriptionsのバイリンガルコーパス
- Authors: Nayla Escribano, Jon Ander Gonz\'alez, Julen Orbegozo-Terradillos,
Ainara Larrondo-Ureta, Sim\'on Pe\~na-Fern\'andez, Olatz Perez-de-Vi\~naspre
and Rodrigo Agerri
- Abstract要約: バスク議会文書から新たに編纂されたコーパスの最初のバージョンをリリースする。
このコーパスはバスク語とスペイン語の重厚なコードスイッチングが特徴であり、バスク語やスペイン語のような対照的な言語で政治的言説を研究するための興味深い資源となっている。
- 参考スコア(独自算出の注目度): 3.4447242282168777
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Parliamentary transcripts provide a valuable resource to understand the
reality and know about the most important facts that occur over time in our
societies. Furthermore, the political debates captured in these transcripts
facilitate research on political discourse from a computational social science
perspective. In this paper we release the first version of a newly compiled
corpus from Basque parliamentary transcripts. The corpus is characterized by
heavy Basque-Spanish code-switching, and represents an interesting resource to
study political discourse in contrasting languages such as Basque and Spanish.
We enrich the corpus with metadata related to relevant attributes of the
speakers and speeches (language, gender, party...) and process the text to
obtain named entities and lemmas. The obtained metadata is then used to perform
a detailed corpus analysis which provides interesting insights about the
language use of the Basque political representatives across time, parties and
gender.
- Abstract(参考訳): 議会の書き起こしは、現実を理解し、我々の社会で時間とともに起こる最も重要な事実を知る貴重な情報源となります。
さらに、これらの書き起こしで得られた政治論争は、計算社会科学の観点から政治談話の研究を促進する。
本稿ではバスク州議会文書から新たに編纂されたコーパスの最初のバージョンをリリースする。
このコーパスは、バスク語とスペイン語を対比する言語で政治的談話を研究するための興味深い資料として、バスク語とスペイン語のコード交換が特徴である。
コーパスには、話者と発話(言語、性別、パーティ...)の関連属性に関連するメタデータを付加し、テキストを処理して名前付きエンティティと補題を取得します。
得られたメタデータを使用して詳細なコーパス分析を行い、時間、パーティー、性別を通じてバスクの政治代表者の言語使用に関する興味深い洞察を提供する。
関連論文リスト
- SpeakGer: A meta-data enriched speech corpus of German state and federal parliaments [0.12277343096128711]
SpeakGerデータセットは、1947年から2023年までのドイツ連邦議会とドイツ連邦議会の16州すべてからの議論で構成されている。
このデータセットには、聴衆からのスピーチに対する反応と、講演者のパーティー、年齢、選挙区、政党の政治的アライメントに関する情報という形で、豊富なメタデータが含まれている。
論文 参考訳(メタデータ) (2024-10-23T14:00:48Z) - The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings [3.2405928866433067]
1998年から2022年までのヘブライの立法手続のコーパスであるコーパス・クネセトを提示する。
コーパスは政治的議論のスタイルにおける歴史的展開を調べるのに有効であることを示す。
また,男性話者と女性話者のスタイルの違いについても検討した。
論文 参考訳(メタデータ) (2024-05-28T12:23:39Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - KamerRaad: Enhancing Information Retrieval in Belgian National Politics through Hierarchical Summarization and Conversational Interfaces [55.00702535694059]
KamerRaadは、大きな言語モデルを活用するAIツールで、市民がベルギーの政治情報と対話的に関わるのを助ける。
このツールは、議会の手続きから重要な抜粋を抽出し、簡潔に要約し、次いで生成AIに基づくインタラクションの可能性を示す。
論文 参考訳(メタデータ) (2024-04-22T15:01:39Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Improving Mandarin Prosodic Structure Prediction with Multi-level
Contextual Information [68.89000132126536]
本研究は,音声間言語情報を用いて韻律構造予測(PSP)の性能を向上させることを提案する。
提案手法は,韻律語(PW),韻律語(PPH),国際語句(IPH)の予測におけるF1スコアの向上を実現する。
論文 参考訳(メタデータ) (2023-08-31T09:19:15Z) - Political corpus creation through automatic speech recognition on EU
debates [4.670305538969914]
我々は、EU議会のLIBE委員会の書き起こされたコーパスを提示し、合計360万のランニングワードを提示する。
EUの議会委員会の会合は、政治科学者にとって潜在的に価値のある情報源であるが、データは限られたメタデータと共に音声記録としてのみ公開されているため、簡単には入手できない。
我々は,会議の音声記録の正確なテキスト書き起こしを行うために,最も適切な自動音声認識(ASR)モデルについて検討した。
論文 参考訳(メタデータ) (2023-04-17T10:41:59Z) - Multi-aspect Multilingual and Cross-lingual Parliamentary Speech
Analysis [1.759288298635146]
我々は,2017年から2020年にかけての6つの国民議会の合同および比較分析に先進的NLP法を適用した。
ParlaMintデータセットコレクションからテキスト中の感情と感情を分析します。
その結果, 分析国間での共通点や, 意外な相違点が認められた。
論文 参考訳(メタデータ) (2022-07-03T14:31:32Z) - Who is we? Disambiguating the referents of first person plural pronouns
in parliamentary debates [9.09904590211839]
代名詞参照を曖昧にするためのアノテーションスキーマを提案し、我々のスキーマを使用して、ドイツ連邦議会の議論の注釈付きコーパスを作成する。
そして、私たちのコーパスを使用して、議会の討論において、代名詞を自動で解決することを学びます。
論文 参考訳(メタデータ) (2022-05-27T18:18:04Z) - German Parliamentary Corpus (GerParCor) [63.17616047204443]
ドイツ議会法人(GerParCor)について紹介する
ゲルパーコール(GerParCor)は、3世紀から4カ国にかけてのドイツ語の議定書のジャンル別コーパスである。
すべてのプロトコルはspurCy3のNLPパイプラインによって前処理され、セッション日に関するメタデータが自動的にアノテートされる。
論文 参考訳(メタデータ) (2022-04-21T22:06:55Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。