論文の概要: A Multi-Labeled Dataset for Indonesian Discourse: Examining Toxicity, Polarization, and Demographics Information
- arxiv url: http://arxiv.org/abs/2503.00417v1
- Date: Sat, 01 Mar 2025 09:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:36.794309
- Title: A Multi-Labeled Dataset for Indonesian Discourse: Examining Toxicity, Polarization, and Demographics Information
- Title(参考訳): インドネシアの談話のための多ラベルデータセット:毒性、分極性、およびデモグラフィック情報の検討
- Authors: Lucky Susanto, Musa Wijanarko, Prasetia Pratama, Zilu Tang, Fariz Akyas, Traci Hong, Ika Idris, Alham Aji, Derry Wijaya,
- Abstract要約: 世界第3位の民主主義国であるインドネシアは、政治的分極とオンライン毒性の相互作用に対する懸念が高まっている。
これまでのNLP研究は毒性と分極の関係を十分に研究していない。
本稿では, 毒性, 分極性, およびアノテータの人口統計情報を組み込んだ, インドネシアの多ラベルデータセットを提案する。
- 参考スコア(独自算出の注目度): 2.8697660350772063
- License:
- Abstract: Polarization is defined as divisive opinions held by two or more groups on substantive issues. As the world's third-largest democracy, Indonesia faces growing concerns about the interplay between political polarization and online toxicity, which is often directed at vulnerable minority groups. Despite the importance of this issue, previous NLP research has not fully explored the relationship between toxicity and polarization. To bridge this gap, we present a novel multi-label Indonesian dataset that incorporates toxicity, polarization, and annotator demographic information. Benchmarking this dataset using BERT-base models and large language models (LLMs) shows that polarization information enhances toxicity classification, and vice versa. Furthermore, providing demographic information significantly improves the performance of polarization classification.
- Abstract(参考訳): 偏極は、2つ以上のグループが実体問題に関して持つ分断的な意見として定義される。
世界第3位の民主主義国であるインドネシアは、政治的分極とオンライン毒性の相互作用に対する懸念が高まっている。
この問題の重要性にもかかわらず、これまでのNLP研究は毒性と分極の関係について完全には研究していない。
このギャップを埋めるために、毒性、分極、アノテータの人口統計情報を組み込んだ、新しい多ラベルインドネシアのデータセットを提案する。
BERTベースモデルと大規模言語モデル(LLM)を用いてこのデータセットをベンチマークすると、偏光情報によって毒性の分類が促進され、その逆も示される。
さらに、人口統計情報を提供することで、偏光分類の性能が大幅に向上する。
関連論文リスト
- A More Advanced Group Polarization Measurement Approach Based on LLM-Based Agents and Graphs [5.285847977231642]
ソーシャルメディア上でのグループ偏極を測定することは、既存のソリューションでまだ解決されていないいくつかの課題を提示する。
我々はマルチエージェントシステムに基づくソリューションを設計し、偏光状態を表すためにグラフ構造化コミュニティセンチメントネットワーク(CSN)を用いた。
要約すると、提案手法はユーザビリティ、正確性、解釈可能性の観点から大きな価値を持っている。
論文 参考訳(メタデータ) (2024-11-19T03:29:17Z) - Robustness and Confounders in the Demographic Alignment of LLMs with Human Perceptions of Offensiveness [10.194622474615462]
大規模言語モデル(LLM)は人口統計学的バイアスを示すことが知られているが、複数のデータセットにまたがってこれらのバイアスを体系的に評価する研究は少ない。
以上の結果から、人口統計学的特徴、特に人種、影響のアライメントはデータセット間で矛盾し、しばしば他の要因と絡み合っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-13T19:08:23Z) - The Factuality Tax of Diversity-Intervened Text-to-Image Generation: Benchmark and Fact-Augmented Intervention [61.80236015147771]
我々は多様性の介入とT2Iモデルにおける人口統計学的事実性とのトレードオフを定量化する。
DoFaiRの実験では、多様性指向の指示によって、性別や人種の異なる集団の数が増加することが明らかになった。
本研究では,歴史における世代ごとのジェンダーや人種構成について,言語化された事実情報を反映したFact-Augmented Intervention (FAI)を提案する。
論文 参考訳(メタデータ) (2024-06-29T09:09:42Z) - IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language [11.463652750122398]
IndoToxic2024はインドネシアのヘイトスピーチおよび毒性分類データセットである。
19の個人によって注釈付けされた43,692のエントリを補完するデータセットは、脆弱なグループをターゲットにしたテキストに焦点を当てている。
我々は、7つの二項分類タスクのベースラインを確立し、憎悪音声分類のために細調整されたBERTモデルを用いてマクロF1スコア0.78を達成する。
論文 参考訳(メタデータ) (2024-06-27T17:26:38Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - The Impact of Differential Feature Under-reporting on Algorithmic Fairness [86.275300739926]
解析的に抽出可能な差分特徴のアンダーレポーティングモデルを提案する。
そして、この種のデータバイアスがアルゴリズムの公正性に与える影響を特徴づける。
我々の結果は、実世界のデータ設定では、アンダーレポートが典型的に格差を増大させることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:16:22Z) - Mitigating Framing Bias with Polarity Minimization Loss [56.24404488440295]
偏見バイアスは、実際の出来事の知覚を歪ませることによって政治的分極を悪化させる重要な役割を担っている。
そこで本研究では,フレーミングバイアスを低減するために,偏光入力項目間の極性差を最小限に抑える新たな損失関数を提案する。
論文 参考訳(メタデータ) (2023-11-03T09:50:23Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - Unveiling the Hidden Agenda: Biases in News Reporting and Consumption [59.55900146668931]
イタリアのワクチン論争に関する6年間のデータセットを構築し、物語と選択バイアスを特定するためにベイジアン潜在空間モデルを採用する。
バイアスとエンゲージメントの間に非線形な関係が見られ、極端な位置へのエンゲージメントが高くなった。
Twitter上でのニュース消費の分析は、同様のイデオロギー的な立場のニュースメディアの間で、一般的なオーディエンスを明らかにしている。
論文 参考訳(メタデータ) (2023-01-14T18:58:42Z) - Exploring Polarization of Users Behavior on Twitter During the 2019
South American Protests [15.065938163384235]
われわれは、2019年に南アメリカのいくつかの国を麻痺させた抗議活動について、異なる文脈でTwitter上で偏極を探っている。
政治家のツイートやハッシュタグキャンペーンに対するユーザの支持を(反対かにかかわらず)抗議に対する明確なスタンスで活用することにより、何百万人ものユーザーによる弱いラベル付きスタンスデータセットを構築します。
イベント中の「フィルターバブル」現象の実証的証拠は、ユーザベースがスタンスの観点から均質であるだけでなく、異なるクラスタのメディアからユーザが移行する確率も低いことを示すものである。
論文 参考訳(メタデータ) (2021-04-05T07:13:18Z) - Toxic Language Detection in Social Media for Brazilian Portuguese: New
Dataset and Multilingual Analysis [4.251937086394346]
最先端のBERTモデルでは,バイナリケースのモノリンガルデータを用いて76%のマクロF1スコアを達成できた。
より正確なモデルを作成するためには,大規模なモノリンガルデータが依然として必要であることを示す。
論文 参考訳(メタデータ) (2020-10-09T13:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。