論文の概要: POLAR: A Benchmark for Multilingual, Multicultural, and Multi-Event Online Polarization
- arxiv url: http://arxiv.org/abs/2505.20624v1
- Date: Tue, 27 May 2025 02:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.342316
- Title: POLAR: A Benchmark for Multilingual, Multicultural, and Multi-Event Online Polarization
- Title(参考訳): POLAR: マルチランガル、マルチカルチャー、マルチイベントオンラインポーラライゼーションのためのベンチマーク
- Authors: Usman Naseem, Juan Ren, Saba Anwar, Sarah Kohail, Rudy Alexandro Garrido Veliz, Robert Geislinger, Aisha Jabr, Idris Abdulmumin, Laiba Qureshi, Aarushi Ajay Borkar, Maryam Ibrahim Mukhtar, Abinew Ali Ayele, Ibrahim Said Ahmad, Adem Ali, Martin Semmann, Shamsuddeen Hassan Muhammad, Seid Muhie Yimam,
- Abstract要約: POLARは、多言語、多文化、マルチイベントのデータセットで、7つの言語で23k以上のインスタンスを持つ。
モノリンガルとクロスランガルの両方のセットアップで、6つの多言語事前学習言語モデルを微調整する。
オープンおよびクローズドな大規模言語モデル(LLM)を,数ショット,ゼロショットのシナリオで評価する。
- 参考スコア(独自算出の注目度): 7.747535418644144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online polarization poses a growing challenge for democratic discourse, yet most computational social science research remains monolingual, culturally narrow, or event-specific. We introduce POLAR, a multilingual, multicultural, and multievent dataset with over 23k instances in seven languages from diverse online platforms and real-world events. Polarization is annotated along three axes: presence, type, and manifestation, using a variety of annotation platforms adapted to each cultural context. We conduct two main experiments: (1) we fine-tune six multilingual pretrained language models in both monolingual and cross-lingual setups; and (2) we evaluate a range of open and closed large language models (LLMs) in few-shot and zero-shot scenarios. Results show that while most models perform well on binary polarization detection, they achieve substantially lower scores when predicting polarization types and manifestations. These findings highlight the complex, highly contextual nature of polarization and the need for robust, adaptable approaches in NLP and computational social science. All resources will be released to support further research and effective mitigation of digital polarization globally.
- Abstract(参考訳): オンライン偏極化は民主的な言論にとってますます難しい課題となっているが、ほとんどの計算社会科学研究はモノリンガル、文化的に狭い、あるいはイベント特有のままである。
POLARは多言語、多文化、マルチイベントのデータセットで、7つの言語で23万以上のインスタンスを持つ。
ポーラライゼーションは3つの軸(存在、タイプ、宣言)に沿ってアノテートされ、それぞれの文化的文脈に適応した様々なアノテーションプラットフォームを使用する。
我々は,(1)モノリンガルとクロスランガルの両設定で6つの言語事前学習言語モデルを微調整し,(2)オープンおよびクローズドな大規模言語モデル(LLM)を,少数ショットとゼロショットのシナリオで評価する。
その結果、ほとんどのモデルは二分極検出において良好に機能するが、偏極の型や表出を予測する際には、かなり低いスコアが得られることがわかった。
これらの知見は、偏極の複雑で文脈的な性質と、NLPと計算社会科学における堅牢で適応可能なアプローチの必要性を浮き彫りにしている。
デジタル偏光のさらなる研究と効果的な緩和を支援するため、すべてのリソースがリリースされる。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - TyDiP: A Dataset for Politeness Classification in Nine Typologically
Diverse Languages [33.540256516320326]
類型的多様言語9言語における丁寧さ現象について検討する。
それぞれの言語で500の例に対して3方向の丁寧なアノテーションを含むデータセットであるTyDiPを作成します。
論文 参考訳(メタデータ) (2022-11-29T18:58:15Z) - Universal and Independent: Multilingual Probing Framework for Exhaustive
Model Interpretation and Evaluation [0.04199844472131922]
多数の言語を簡単に探索できるGUI支援フレームワークを提案し,適用した。
mBERTモデルで明らかになった規則性のほとんどは、西欧語で典型的である。
私たちのフレームワークは,既存のプローブツールボックスやモデルカード,リーダボードと統合することができます。
論文 参考訳(メタデータ) (2022-10-24T13:41:17Z) - Are Pretrained Multilingual Models Equally Fair Across Languages? [0.0]
この研究は多言語モデルの群フェアネスを調査し、これらのモデルが言語間で等しく公平かどうかを問う。
我々は、MozArt上の3つの多言語モデル(mBERT、XLM-R、mT5)を評価し、これらのモデルが4つの対象言語で異なるグループ格差を示すことを示す。
論文 参考訳(メタデータ) (2022-10-11T13:59:19Z) - Transformers in the loop: Polarity in neural models of language [0.20305676256390934]
我々は2つの事前学習されたトランスフォーマーモデルにおいて、いわゆる「負極性アイテム」を介して極性を探索する。
言語モデルから得られたメトリクスは、言語理論の予測よりも、心理言語実験のデータと一致していることを示す。
論文 参考訳(メタデータ) (2021-09-08T20:56:32Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。