論文の概要: A Greek Parliament Proceedings Dataset for Computational Linguistics and
Political Analysis
- arxiv url: http://arxiv.org/abs/2210.12883v1
- Date: Sun, 23 Oct 2022 23:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:36:10.753173
- Title: A Greek Parliament Proceedings Dataset for Computational Linguistics and
Political Analysis
- Title(参考訳): 計算言語学と政治分析のためのギリシャ議会手続データセット
- Authors: Konstantina Dritsa, Kaiti Thoma, John Pavlopoulos, Panos Louridas
- Abstract要約: 我々は,1989年から2020年までの期間を経時的に延ばす,ギリシャ議会紀要のキュレートされたデータセットを紹介した。
5,355の議会記録ファイルから抽出された、100万以上のスピーチと豊富なメタデータで構成されている。
- 参考スコア(独自算出の注目度): 4.396860522241306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large, diachronic datasets of political discourse are hard to come across,
especially for resource-lean languages such as Greek. In this paper, we
introduce a curated dataset of the Greek Parliament Proceedings that extends
chronologically from 1989 up to 2020. It consists of more than 1 million
speeches with extensive metadata, extracted from 5,355 parliamentary record
files. We explain how it was constructed and the challenges that we had to
overcome. The dataset can be used for both computational linguistics and
political analysis-ideally, combining the two. We present such an application,
showing (i) how the dataset can be used to study the change of word usage
through time, (ii) between significant historical events and political parties,
(iii) by evaluating and employing algorithms for detecting semantic shifts.
- Abstract(参考訳): 政治的談話の大規模でダイアクロニックなデータセットは、特にギリシア語のようなリソース指向の言語では見当たらない。
本稿では,1989年から2020年までの期間を経時的に延ばす,ギリシャ議会紀要のキュレートデータセットを紹介する。
5,355の議会記録ファイルから抽出された100万以上のスピーチと豊富なメタデータで構成されている。
どのように構築され、我々が克服しなければならなかった課題を説明します。
このデータセットは、計算言語学と政治分析を理想的に組み合わせて使用できる。
私たちはそのようなアプリケーションを示します。
(i)時間による単語使用の変化を研究するためにデータセットをどのように使用できるか。
(ii)重要な歴史的出来事と政党
(iii)意味的変化を検出するアルゴリズムを評価して活用すること。
関連論文リスト
- Syntactic Language Change in English and German: Metrics, Parsers, and
Convergences [59.3104689496844]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Multilingual estimation of political-party positioning: From label
aggregation to long-input Transformers [3.651047982634467]
我々は、政党マニフェストの自動スケーリング分析に2つのアプローチを実装し、比較する。
このタスクは最先端のモデルによって効率よく解決でき、ラベルアグリゲーションが最良の結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2023-10-19T08:34:48Z) - The ParlaSent multilingual training dataset for sentiment identification
in parliamentary proceedings [4.450536872346658]
本論文は, 感情分類器の訓練に焦点をあてた一連の実験において, 感傷文の新たなデータセットを提案する。
本稿は、政治的科学応用のための最初のドメイン固有 LLM についても紹介し、さらに12億7千億のドメイン固有語を事前訓練した。
我々は,多言語モデルが未確認言語で非常によく機能し,他の言語からの付加データが対象の議会の結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-09-18T14:01:06Z) - Uncovering Political Hate Speech During Indian Election Campaign: A New
Low-Resource Dataset and Baselines [3.3228144010758593]
IEHateデータセットには、2021年11月1日から2022年3月9日までのインド議会選挙に関連する11,457件のヒンディー語ツイートが含まれている。
機械学習、ディープラーニング、トランスフォーマーベースのアルゴリズムを用いてデータセットをベンチマークする。
特に、アルゴリズムよりも人間評価のスコアが比較的高いことは、効果的なヘイトスピーチのモデレーションに人間と自動化の両方のアプローチを活用することの重要性を強調している。
論文 参考訳(メタデータ) (2023-06-26T15:17:54Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - Political corpus creation through automatic speech recognition on EU
debates [4.670305538969914]
我々は、EU議会のLIBE委員会の書き起こされたコーパスを提示し、合計360万のランニングワードを提示する。
EUの議会委員会の会合は、政治科学者にとって潜在的に価値のある情報源であるが、データは限られたメタデータと共に音声記録としてのみ公開されているため、簡単には入手できない。
我々は,会議の音声記録の正確なテキスト書き起こしを行うために,最も適切な自動音声認識(ASR)モデルについて検討した。
論文 参考訳(メタデータ) (2023-04-17T10:41:59Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - BasqueParl: A Bilingual Corpus of Basque Parliamentary Transcriptions [3.4447242282168777]
バスク議会文書から新たに編纂されたコーパスの最初のバージョンをリリースする。
このコーパスはバスク語とスペイン語の重厚なコードスイッチングが特徴であり、バスク語やスペイン語のような対照的な言語で政治的言説を研究するための興味深い資源となっている。
論文 参考訳(メタデータ) (2022-05-03T14:02:24Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。