論文の概要: The ParlaSent Multilingual Training Dataset for Sentiment Identification in Parliamentary Proceedings
- arxiv url: http://arxiv.org/abs/2309.09783v2
- Date: Wed, 20 Mar 2024 10:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 22:37:29.173316
- Title: The ParlaSent Multilingual Training Dataset for Sentiment Identification in Parliamentary Proceedings
- Title(参考訳): 議会手続における感性識別のための多言語学習データセット
- Authors: Michal Mochtak, Peter Rupnik, Nikola Ljubešić,
- Abstract要約: そこで本論文では,感傷的に手動で注釈付けした7言語による文のトレーニングデータセットを提案する。
さらに、政治科学応用のためのドメイン固有多言語トランスフォーマー言語モデルについても紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper presents a new training dataset of sentences in 7 languages, manually annotated for sentiment, which are used in a series of experiments focused on training a robust sentiment identifier for parliamentary proceedings. The paper additionally introduces the first domain-specific multilingual transformer language model for political science applications, which was additionally pre-trained on 1.72 billion words from parliamentary proceedings of 27 European parliaments. We present experiments demonstrating how the additional pre-training on parliamentary data can significantly improve the model downstream performance, in our case, sentiment identification in parliamentary proceedings. We further show that our multilingual model performs very well on languages not seen during fine-tuning, and that additional fine-tuning data from other languages significantly improves the target parliament's results. The paper makes an important contribution to multiple disciplines inside the social sciences, and bridges them with computer science and computational linguistics. Lastly, the resulting fine-tuned language model sets up a more robust approach to sentiment analysis of political texts across languages, which allows scholars to study political sentiment from a comparative perspective using standardized tools and techniques.
- Abstract(参考訳): 本論文は,7言語による文のトレーニングデータセットを手動でアノテートし,議会手続のための堅牢な感情識別子のトレーニングに焦点をあてた一連の実験で使用した。
さらに、27の欧州議会の議事録から72億語を事前訓練した、政治科学応用のためのドメイン固有多言語トランスフォーマー言語モデルについても紹介した。
本稿では,議会データに付加的な事前学習を施すことによって,議会手続における感情識別のダウンストリーム性能を著しく向上させる実験を行った。
さらに、我々の多言語モデルは、微調整中に見られない言語で非常によく機能し、他の言語から追加された微調整データにより、目的とする議会の結果が大幅に改善されることを示す。
本論文は,社会科学における複数の分野に重要な貢献を行い,それらを計算機科学と計算言語学で橋渡しする。
最後に、結果として得られる微調整された言語モデルにより、言語間での政治的テキストの感情分析に対するより堅牢なアプローチが確立され、学者は標準化されたツールや技術を用いて比較的な視点から政治的感情を研究することができる。
関連論文リスト
- The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings [0.0]
我々は,低リソース言語による大規模かつオープンな音声・テキスト対応データセットを構築するためのアプローチを提案する。
我々は3つのスラヴ語、すなわちクロアチア語、ポーランド語、セルビア語に焦点を当てている。
このパイロット実行の結果は、5000時間以上のスピーチと付随するテキストの書き起こしにまたがる、高品質な3つのデータセットである。
論文 参考訳(メタデータ) (2024-09-23T10:12:18Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Political corpus creation through automatic speech recognition on EU
debates [4.670305538969914]
我々は、EU議会のLIBE委員会の書き起こされたコーパスを提示し、合計360万のランニングワードを提示する。
EUの議会委員会の会合は、政治科学者にとって潜在的に価値のある情報源であるが、データは限られたメタデータと共に音声記録としてのみ公開されているため、簡単には入手できない。
我々は,会議の音声記録の正確なテキスト書き起こしを行うために,最も適切な自動音声認識(ASR)モデルについて検討した。
論文 参考訳(メタデータ) (2023-04-17T10:41:59Z) - A Commonsense-Infused Language-Agnostic Learning Framework for Enhancing
Prediction of Political Polarity in Multilingual News Headlines [0.0]
対象言語における推論知識を取得するために,翻訳と検索の手法を用いる。
次に、重要な推論を強調するために注意機構を使用します。
我々は、それぞれの政治的極性に注釈を付けた5つのヨーロッパ言語で62.6K以上の多言語ニュースの見出しを提示する。
論文 参考訳(メタデータ) (2022-12-01T06:07:01Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Multilingual Neural RST Discourse Parsing [24.986030179701405]
本稿では,多言語ベクトル表現とセグメントレベルの翻訳によるニューラル言語間対話を確立するための2つの手法について検討する。
実験結果から,両手法は訓練データに制限があっても有効であり,言語横断的,文書レベルの談話解析における最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-12-03T05:03:38Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。