論文の概要: The ParlaSent multilingual training dataset for sentiment identification
in parliamentary proceedings
- arxiv url: http://arxiv.org/abs/2309.09783v1
- Date: Mon, 18 Sep 2023 14:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:11:06.714988
- Title: The ParlaSent multilingual training dataset for sentiment identification
in parliamentary proceedings
- Title(参考訳): 議会手続きにおける感情識別のための多言語学習データセット
- Authors: Michal Mochtak, Peter Rupnik, Nikola Ljube\v{s}i\'c
- Abstract要約: 本論文は, 感情分類器の訓練に焦点をあてた一連の実験において, 感傷文の新たなデータセットを提案する。
本稿は、政治的科学応用のための最初のドメイン固有 LLM についても紹介し、さらに12億7千億のドメイン固有語を事前訓練した。
我々は,多言語モデルが未確認言語で非常によく機能し,他の言語からの付加データが対象の議会の結果を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 4.450536872346658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentiments inherently drive politics. How we receive and process information
plays an essential role in political decision-making, shaping our judgment with
strategic consequences both on the level of legislators and the masses. If
sentiment plays such an important role in politics, how can we study and
measure it systematically? The paper presents a new dataset of
sentiment-annotated sentences, which are used in a series of experiments
focused on training a robust sentiment classifier for parliamentary
proceedings. The paper also introduces the first domain-specific LLM for
political science applications additionally pre-trained on 1.72 billion
domain-specific words from proceedings of 27 European parliaments. We present
experiments demonstrating how the additional pre-training of LLM on
parliamentary data can significantly improve the model downstream performance
on the domain-specific tasks, in our case, sentiment detection in parliamentary
proceedings. We further show that multilingual models perform very well on
unseen languages and that additional data from other languages significantly
improves the target parliament's results. The paper makes an important
contribution to multiple domains of social sciences and bridges them with
computer science and computational linguistics. Lastly, it sets up a more
robust approach to sentiment analysis of political texts in general, which
allows scholars to study political sentiment from a comparative perspective
using standardized tools and techniques.
- Abstract(参考訳): 感覚は本質的に政治を駆り立てる。
どのように情報を受け取り、処理するかは、政治的意思決定において重要な役割を担っており、議員と大衆の両方のレベルで戦略的影響を伴う判断を形作る。
感情が政治においてそんなに重要な役割を果たすなら、どのようにそれを体系的に研究し、測定するか?
本論文は,議会手続におけるロバストな感情分類器の訓練に焦点をあてた一連の実験に使用される,感情注釈文の新しいデータセットを提案する。
また、27の欧州議会の手続きから72億のドメイン特化語を事前訓練した最初のドメイン特化LDMについても紹介した。
本稿では,議会データに対するllmの事前学習が,議会手続きにおける感情検出において,ドメイン固有のタスクにおけるモデル下流性能を著しく改善することを示す実験を行う。
さらに、多言語モデルは、目に見えない言語で非常によく機能し、他の言語からの追加データが目的の議会の結果を大幅に改善することを示した。
この論文は社会科学の複数の領域に重要な貢献をし、それらをコンピュータ科学と計算言語学で橋渡しする。
最後に、一般的な政治的テキストの感情分析に対するより堅牢なアプローチを設定し、研究者は標準的なツールや技術を用いて比較的な視点から政治的感情を研究することができる。
関連論文リスト
- The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings [0.0]
我々は,低リソース言語による大規模かつオープンな音声・テキスト対応データセットを構築するためのアプローチを提案する。
我々は3つのスラヴ語、すなわちクロアチア語、ポーランド語、セルビア語に焦点を当てている。
このパイロット実行の結果は、5000時間以上のスピーチと付随するテキストの書き起こしにまたがる、高品質な3つのデータセットである。
論文 参考訳(メタデータ) (2024-09-23T10:12:18Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Political corpus creation through automatic speech recognition on EU
debates [4.670305538969914]
我々は、EU議会のLIBE委員会の書き起こされたコーパスを提示し、合計360万のランニングワードを提示する。
EUの議会委員会の会合は、政治科学者にとって潜在的に価値のある情報源であるが、データは限られたメタデータと共に音声記録としてのみ公開されているため、簡単には入手できない。
我々は,会議の音声記録の正確なテキスト書き起こしを行うために,最も適切な自動音声認識(ASR)モデルについて検討した。
論文 参考訳(メタデータ) (2023-04-17T10:41:59Z) - A Commonsense-Infused Language-Agnostic Learning Framework for Enhancing
Prediction of Political Polarity in Multilingual News Headlines [0.0]
対象言語における推論知識を取得するために,翻訳と検索の手法を用いる。
次に、重要な推論を強調するために注意機構を使用します。
我々は、それぞれの政治的極性に注釈を付けた5つのヨーロッパ言語で62.6K以上の多言語ニュースの見出しを提示する。
論文 参考訳(メタデータ) (2022-12-01T06:07:01Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Multilingual Neural RST Discourse Parsing [24.986030179701405]
本稿では,多言語ベクトル表現とセグメントレベルの翻訳によるニューラル言語間対話を確立するための2つの手法について検討する。
実験結果から,両手法は訓練データに制限があっても有効であり,言語横断的,文書レベルの談話解析における最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-12-03T05:03:38Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。