論文の概要: AgoraSpeech: A multi-annotated comprehensive dataset of political discourse through the lens of humans and AI
- arxiv url: http://arxiv.org/abs/2501.06265v1
- Date: Thu, 09 Jan 2025 18:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:08.397893
- Title: AgoraSpeech: A multi-annotated comprehensive dataset of political discourse through the lens of humans and AI
- Title(参考訳): AgoraSpeech:人間とAIのレンズによる政治談話の多義的包括的データセット
- Authors: Pavlos Sermpezis, Stelios Karamanidis, Eva Paraschou, Ilias Dimitriadis, Sofia Yfantidou, Filitsa-Ioanna Kouskouveli, Thanasis Troboukis, Kelly Kiki, Antonis Galanopoulos, Athena Vakali,
- Abstract要約: アゴラ・スペーチ(AgoraSpeech)は、ギリシャ国民選挙中の2023年の6つの政党による171の政治演説を精巧にキュレートした高品質なデータセットである。
このデータセットには、テキスト分類、トピック識別、感情分析、名前付きエンティティ認識、分極、ポピュリズム検出の6つの自然言語処理(NLP)タスクのためのアノテーション(1段落)が含まれている。
- 参考スコア(独自算出の注目度): 1.3060410279656598
- License:
- Abstract: Political discourse datasets are important for gaining political insights, analyzing communication strategies or social science phenomena. Although numerous political discourse corpora exist, comprehensive, high-quality, annotated datasets are scarce. This is largely due to the substantial manual effort, multidisciplinarity, and expertise required for the nuanced annotation of rhetorical strategies and ideological contexts. In this paper, we present AgoraSpeech, a meticulously curated, high-quality dataset of 171 political speeches from six parties during the Greek national elections in 2023. The dataset includes annotations (per paragraph) for six natural language processing (NLP) tasks: text classification, topic identification, sentiment analysis, named entity recognition, polarization and populism detection. A two-step annotation was employed, starting with ChatGPT-generated annotations and followed by exhaustive human-in-the-loop validation. The dataset was initially used in a case study to provide insights during the pre-election period. However, it has general applicability by serving as a rich source of information for political and social scientists, journalists, or data scientists, while it can be used for benchmarking and fine-tuning NLP and large language models (LLMs).
- Abstract(参考訳): 政治談話データセットは、政治的洞察を得る、コミュニケーション戦略や社会科学現象を分析するために重要である。
多くの政治談話コーパスが存在するが、包括的で高品質な注釈付きデータセットは少ない。
これは主に、修辞的戦略とイデオロギー的文脈のニュアンスな注釈に必要な実質的な手作業、多学際性、専門性によるものである。
本稿では,2023年のギリシャ総選挙における6政党の政治演説171件の厳密にキュレートされた高品質なデータセットであるAgoraSpeechを紹介する。
このデータセットには、テキスト分類、トピック識別、感情分析、名前付きエンティティ認識、分極、ポピュリズム検出の6つの自然言語処理(NLP)タスクのためのアノテーション(1段落)が含まれている。
2段階のアノテーションが採用され、まずChatGPTで生成されたアノテーションから始まり、その後に徹底的なヒューマン・イン・ザ・ループの検証が行われた。
データセットは、最初に、予備選挙期間中に洞察を提供するケーススタディで使用された。
しかし、政治・社会科学者、ジャーナリスト、データ科学者の豊富な情報源として機能し、NLPおよび大規模言語モデル(LLM)のベンチマークや微調整に使用することができる。
関連論文リスト
- Political-LLM: Large Language Models in Political Science [159.95299889946637]
大規模言語モデル(LLM)は、政治科学のタスクで広く採用されている。
政治LLMは、LLMを計算政治科学に統合する包括的な理解を促進することを目的としている。
論文 参考訳(メタデータ) (2024-12-09T08:47:50Z) - SpeakGer: A meta-data enriched speech corpus of German state and federal parliaments [0.12277343096128711]
SpeakGerデータセットは、1947年から2023年までのドイツ連邦議会とドイツ連邦議会の16州すべてからの議論で構成されている。
このデータセットには、聴衆からのスピーチに対する反応と、講演者のパーティー、年齢、選挙区、政党の政治的アライメントに関する情報という形で、豊富なメタデータが含まれている。
論文 参考訳(メタデータ) (2024-10-23T14:00:48Z) - Language Models Learn Metadata: Political Stance Detection Case Study [1.2277343096128712]
本稿では,メタデータを政治的スタンス検出タスクに組み込むための最適な方法について検討する。
我々の単純なベースラインは、党員情報のみを用いて、現在の最先端を超越していることが示される。
論文 参考訳(メタデータ) (2024-09-15T14:57:41Z) - Combining Objective and Subjective Perspectives for Political News Understanding [5.741243797283764]
本稿では、両視点を統合し、主観的側面のきめ細かい処理を提供するテキスト分析フレームワークを提案する。
本稿では、ニュースメディア、政治的指向、トピック、個々のエンティティ、人口構成に関する洞察とともに、その機能について説明する。
論文 参考訳(メタデータ) (2024-08-20T20:13:19Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Improving Mandarin Prosodic Structure Prediction with Multi-level
Contextual Information [68.89000132126536]
本研究は,音声間言語情報を用いて韻律構造予測(PSP)の性能を向上させることを提案する。
提案手法は,韻律語(PW),韻律語(PPH),国際語句(IPH)の予測におけるF1スコアの向上を実現する。
論文 参考訳(メタデータ) (2023-08-31T09:19:15Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - A Greek Parliament Proceedings Dataset for Computational Linguistics and
Political Analysis [4.396860522241306]
我々は,1989年から2020年までの期間を経時的に延ばす,ギリシャ議会紀要のキュレートされたデータセットを紹介した。
5,355の議会記録ファイルから抽出された、100万以上のスピーチと豊富なメタデータで構成されている。
論文 参考訳(メタデータ) (2022-10-23T23:23:28Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。