論文の概要: The ParlaSent multilingual training dataset for sentiment identification
in parliamentary proceedings
- arxiv url: http://arxiv.org/abs/2309.09783v1
- Date: Mon, 18 Sep 2023 14:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:11:06.714988
- Title: The ParlaSent multilingual training dataset for sentiment identification
in parliamentary proceedings
- Title(参考訳): 議会手続きにおける感情識別のための多言語学習データセット
- Authors: Michal Mochtak, Peter Rupnik, Nikola Ljube\v{s}i\'c
- Abstract要約: 本論文は, 感情分類器の訓練に焦点をあてた一連の実験において, 感傷文の新たなデータセットを提案する。
本稿は、政治的科学応用のための最初のドメイン固有 LLM についても紹介し、さらに12億7千億のドメイン固有語を事前訓練した。
我々は,多言語モデルが未確認言語で非常によく機能し,他の言語からの付加データが対象の議会の結果を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 4.450536872346658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentiments inherently drive politics. How we receive and process information
plays an essential role in political decision-making, shaping our judgment with
strategic consequences both on the level of legislators and the masses. If
sentiment plays such an important role in politics, how can we study and
measure it systematically? The paper presents a new dataset of
sentiment-annotated sentences, which are used in a series of experiments
focused on training a robust sentiment classifier for parliamentary
proceedings. The paper also introduces the first domain-specific LLM for
political science applications additionally pre-trained on 1.72 billion
domain-specific words from proceedings of 27 European parliaments. We present
experiments demonstrating how the additional pre-training of LLM on
parliamentary data can significantly improve the model downstream performance
on the domain-specific tasks, in our case, sentiment detection in parliamentary
proceedings. We further show that multilingual models perform very well on
unseen languages and that additional data from other languages significantly
improves the target parliament's results. The paper makes an important
contribution to multiple domains of social sciences and bridges them with
computer science and computational linguistics. Lastly, it sets up a more
robust approach to sentiment analysis of political texts in general, which
allows scholars to study political sentiment from a comparative perspective
using standardized tools and techniques.
- Abstract(参考訳): 感覚は本質的に政治を駆り立てる。
どのように情報を受け取り、処理するかは、政治的意思決定において重要な役割を担っており、議員と大衆の両方のレベルで戦略的影響を伴う判断を形作る。
感情が政治においてそんなに重要な役割を果たすなら、どのようにそれを体系的に研究し、測定するか?
本論文は,議会手続におけるロバストな感情分類器の訓練に焦点をあてた一連の実験に使用される,感情注釈文の新しいデータセットを提案する。
また、27の欧州議会の手続きから72億のドメイン特化語を事前訓練した最初のドメイン特化LDMについても紹介した。
本稿では,議会データに対するllmの事前学習が,議会手続きにおける感情検出において,ドメイン固有のタスクにおけるモデル下流性能を著しく改善することを示す実験を行う。
さらに、多言語モデルは、目に見えない言語で非常によく機能し、他の言語からの追加データが目的の議会の結果を大幅に改善することを示した。
この論文は社会科学の複数の領域に重要な貢献をし、それらをコンピュータ科学と計算言語学で橋渡しする。
最後に、一般的な政治的テキストの感情分析に対するより堅牢なアプローチを設定し、研究者は標準的なツールや技術を用いて比較的な視点から政治的感情を研究することができる。
関連論文リスト
- Improving Mandarin Prosodic Structure Prediction with Multi-level
Contextual Information [68.89000132126536]
本研究は,音声間言語情報を用いて韻律構造予測(PSP)の性能を向上させることを提案する。
提案手法は,韻律語(PW),韻律語(PPH),国際語句(IPH)の予測におけるF1スコアの向上を実現する。
論文 参考訳(メタデータ) (2023-08-31T09:19:15Z) - Leveraging Large Language Models for Topic Classification in the Domain
of Public Affairs [65.9077733300329]
大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。
LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
論文 参考訳(メタデータ) (2023-06-05T13:35:01Z) - Political corpus creation through automatic speech recognition on EU
debates [4.670305538969914]
我々は、EU議会のLIBE委員会の書き起こされたコーパスを提示し、合計360万のランニングワードを提示する。
EUの議会委員会の会合は、政治科学者にとって潜在的に価値のある情報源であるが、データは限られたメタデータと共に音声記録としてのみ公開されているため、簡単には入手できない。
我々は,会議の音声記録の正確なテキスト書き起こしを行うために,最も適切な自動音声認識(ASR)モデルについて検討した。
論文 参考訳(メタデータ) (2023-04-17T10:41:59Z) - A Greek Parliament Proceedings Dataset for Computational Linguistics and
Political Analysis [4.396860522241306]
我々は,1989年から2020年までの期間を経時的に延ばす,ギリシャ議会紀要のキュレートされたデータセットを紹介した。
5,355の議会記録ファイルから抽出された、100万以上のスピーチと豊富なメタデータで構成されている。
論文 参考訳(メタデータ) (2022-10-23T23:23:28Z) - Multi-aspect Multilingual and Cross-lingual Parliamentary Speech
Analysis [1.759288298635146]
我々は,2017年から2020年にかけての6つの国民議会の合同および比較分析に先進的NLP法を適用した。
ParlaMintデータセットコレクションからテキスト中の感情と感情を分析します。
その結果, 分析国間での共通点や, 意外な相違点が認められた。
論文 参考訳(メタデータ) (2022-07-03T14:31:32Z) - BasqueParl: A Bilingual Corpus of Basque Parliamentary Transcriptions [3.4447242282168777]
バスク議会文書から新たに編纂されたコーパスの最初のバージョンをリリースする。
このコーパスはバスク語とスペイン語の重厚なコードスイッチングが特徴であり、バスク語やスペイン語のような対照的な言語で政治的言説を研究するための興味深い資源となっている。
論文 参考訳(メタデータ) (2022-05-03T14:02:24Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - A Matter of Framing: The Impact of Linguistic Formalism on Probing
Results [69.36678873492373]
BERT (Delvin et al.) のような事前訓練されたコンテキスト化エンコーダは、下流タスクで顕著なパフォーマンスを示す。
調査における最近の研究は、事前学習中にこれらのモデルによって暗黙的に学習された言語知識について調査している。
形式主義の選択は調査結果に影響を及ぼすか?
BERTによる意味的役割情報とプロトロール情報のエンコーディングにおける言語学的意義の相違は,形式主義に依存している。
論文 参考訳(メタデータ) (2020-04-30T17:45:16Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。