論文の概要: The ParlaSent-BCS dataset of sentiment-annotated parliamentary debates
from Bosnia-Herzegovina, Croatia, and Serbia
- arxiv url: http://arxiv.org/abs/2206.00929v1
- Date: Thu, 2 Jun 2022 08:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 18:02:37.460158
- Title: The ParlaSent-BCS dataset of sentiment-annotated parliamentary debates
from Bosnia-Herzegovina, Croatia, and Serbia
- Title(参考訳): ボスニア・ヘルツェゴビナ、クロアチア、セルビアの議会討論会のパラジェントbcsデータセット
- Authors: Michal Mochtak, Peter Rupnik, Nikola Ljube\v{s}i\v{c}
- Abstract要約: 本稿では、政治談話における感情の極性を検出するために注釈付き文のデータセットを用いて、議会討論に関する新たな研究の枠組みを付け加える。
我々は、クロアチア、ボスニア・ヘルツェゴビナ、セルビアの3つの南東ヨーロッパの議会の手続きから、アノテーションの文をサンプリングした。
データセットの初期実験では、トランスフォーマーモデルの方が、より単純なアーキテクチャを使用するモデルよりもはるかに優れた性能を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Expression of sentiment in parliamentary debates is deemed to be
significantly different from that on social media or in product reviews. This
paper adds to an emerging body of research on parliamentary debates with a
dataset of sentences annotated for detection sentiment polarity in political
discourse. We sample the sentences for annotation from the proceedings of three
Southeast European parliaments: Croatia, Bosnia-Herzegovina, and Serbia. A
six-level schema is applied to the data with the aim of training a
classification model for the detection of sentiment in parliamentary
proceedings. Krippendorff's alpha measuring the inter-annotator agreement
ranges from 0.6 for the six-level annotation schema to 0.75 for the three-level
schema and 0.83 for the two-level schema. Our initial experiments on the
dataset show that transformer models perform significantly better than those
using a simpler architecture. Furthermore, regardless of the similarity of the
three languages, we observe differences in performance across different
languages. Performing parliament-specific training and evaluation shows that
the main reason for the differing performance between parliaments seems to be
the different complexity of the automatic classification task, which is not
observable in annotator performance. Language distance does not seem to play
any role neither in annotator nor in automatic classification performance. We
release the dataset and the best-performing model under permissive licences.
- Abstract(参考訳): 議会の議論における感情表現は、ソーシャルメディアや製品レビューとは大きく異なると考えられている。
本稿では,政治談話における感情の極性を検出するためにアノテートされた文のデータセットを用いて,議会討論に関する新たな研究を付け加える。
我々は、クロアチア、ボスニア・ヘルツェゴビナ、セルビアの3つの南東ヨーロッパの議会の手続きから、アノテーションの文をサンプリングした。
議事録における感情の検出のための分類モデルの訓練を目的とした6段階のスキーマをデータに適用する。
アノテーション間の合意を測るクリッペンドルフのアルファは6レベルのアノテーションスキーマの0.6から3レベルのスキーマの0.75、そして2レベルのスキーマの0.83まで様々である。
データセットの初期実験では、トランスフォーマーモデルの方がより単純なアーキテクチャを使用するモデルよりもはるかに優れた性能を示している。
さらに,これら3つの言語の類似性にかかわらず,異なる言語間の性能の違いを観察する。
議会固有の訓練と評価を実行することは、議会間での異なるパフォーマンスの主な理由は、アノテータのパフォーマンスでは観察できない自動分類タスクの複雑さであると考えられる。
言語距離は、アノテータでも自動分類性能でも役に立たないように見える。
パーミッシブライセンスの下でデータセットと最高のパフォーマンスモデルをリリースする。
関連論文リスト
- The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings [0.0]
我々は,低リソース言語による大規模かつオープンな音声・テキスト対応データセットを構築するためのアプローチを提案する。
我々は3つのスラヴ語、すなわちクロアチア語、ポーランド語、セルビア語に焦点を当てている。
このパイロット実行の結果は、5000時間以上のスピーチと付随するテキストの書き起こしにまたがる、高品質な3つのデータセットである。
論文 参考訳(メタデータ) (2024-09-23T10:12:18Z) - A Collection of Pragmatic-Similarity Judgments over Spoken Dialog Utterances [2.094821665776961]
我々は,発話対間の現実的類似性に関する人間の判断の最初のコレクションを開発する。
各ペアは、記録されたダイアログから抽出された発話と、その発話の再実行から構成された。
ジャッジ間の平均相関は英語が0.72、スペイン語が0.66であった。
論文 参考訳(メタデータ) (2024-03-21T19:46:42Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - The ParlaSent Multilingual Training Dataset for Sentiment Identification in Parliamentary Proceedings [0.0]
そこで本論文では,感傷的に手動で注釈付けした7言語による文のトレーニングデータセットを提案する。
さらに、政治科学応用のためのドメイン固有多言語トランスフォーマー言語モデルについても紹介する。
論文 参考訳(メタデータ) (2023-09-18T14:01:06Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Binary and Multitask Classification Model for Dutch Anaphora Resolution:
Die/Dat Prediction [18.309099448064273]
オランダ語の代名詞「ディー」と「ダット」の正しい用法は、オランダ語の母語話者と非母語話者の双方にとって不安定なブロックである。
本研究は,オランダ語実証および相対代名詞分解のための最初のニューラルネットワークモデルを構築した。
論文 参考訳(メタデータ) (2020-01-09T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。