論文の概要: Multilingual Bias Detection and Mitigation for Indian Languages
- arxiv url: http://arxiv.org/abs/2312.15181v1
- Date: Sat, 23 Dec 2023 07:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:25:58.594009
- Title: Multilingual Bias Detection and Mitigation for Indian Languages
- Title(参考訳): インド語の多言語バイアス検出と緩和
- Authors: Ankita Maity, Anubhav Sharma, Rudra Dhar, Tushar Abhishek, Manish
Gupta and Vasudeva Varma
- Abstract要約: 多様な視点の欠如は、ウィキペディアのコンテンツに中立バイアスをもたらし、世界中の何百万人もの読者が露出する。
バイアス検出タスクと緩和タスクに8言語をカバーする2つの大規模データセットmWikiBiasとmWNCをコントリビュートする。
次に、二項分類問題として検出をモデル化し、スタイル伝達問題として緩和することにより、2つのタスクに対する多言語トランスフォーマーモデルの有効性を検討する。
- 参考スコア(独自算出の注目度): 12.957036336552372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lack of diverse perspectives causes neutrality bias in Wikipedia content
leading to millions of worldwide readers getting exposed by potentially
inaccurate information. Hence, neutrality bias detection and mitigation is a
critical problem. Although previous studies have proposed effective solutions
for English, no work exists for Indian languages. First, we contribute two
large datasets, mWikiBias and mWNC, covering 8 languages, for the bias
detection and mitigation tasks respectively. Next, we investigate the
effectiveness of popular multilingual Transformer-based models for the two
tasks by modeling detection as a binary classification problem and mitigation
as a style transfer problem. We make the code and data publicly available.
- Abstract(参考訳): 多様な視点の欠如はwikipediaコンテンツの中立性バイアスを引き起こし、世界中の何百万もの読者が不正確な情報によって露出する。
したがって、中立バイアスの検出と緩和は重要な問題である。
以前の研究は、英語の効果的な解法を提案したが、インド語のための研究は存在しない。
まず、8つの言語をカバーする2つの大きなデータセットmWikiBiasとmWNCをそれぞれバイアス検出および緩和タスクに貢献する。
次に,二分分類問題として検出をモデル化し,スタイル伝達問題として緩和することで,一般的な多言語トランスフォーマモデルの有効性について検討する。
コードとデータを公開しています。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - Exploiting Transformer-based Multitask Learning for the Detection of
Media Bias in News Articles [21.960154864540282]
メディアバイアスを検出するために,マルチタスク学習を用いて学習したトランスフォーマーに基づくディープラーニングアーキテクチャを提案する。
我々の最高のパフォーマンス実装は、マクロ$F_1$の0.776を実現しています。
論文 参考訳(メタデータ) (2022-11-07T12:22:31Z) - Data Bootstrapping Approaches to Improve Low Resource Abusive Language
Detection for Indic Languages [5.51252705016179]
Indic言語における多言語乱用音声の大規模分析を実演する。
本研究では,異なる言語間伝達機構について検討し,様々な多言語モデルによる虐待的音声検出の性能について検討する。
論文 参考訳(メタデータ) (2022-04-26T18:56:01Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z) - Coarse and Fine-Grained Hostility Detection in Hindi Posts using Fine
Tuned Multilingual Embeddings [4.3012765978447565]
敵意検出タスクは、英語のようなリソースに富む言語でよく研究されているが、Hindidueのようなリソースに制約のある言語では探索されていない。
ヒンディー語投稿における敵意検出に有効なニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-01-13T11:00:31Z) - Counterfactual VQA: A Cause-Effect Look at Language Bias [117.84189187160005]
VQAモデルは、ショートカットとして言語バイアスに依存し、視覚と言語の両方からマルチモーダルな知識を十分に学ばない傾向にある。
本稿では,質問に対する直接的な因果的影響として,言語バイアスを捉えることのできる,新たな反事実推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-08T01:49:27Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。