論文の概要: Debiasing Multilingual Word Embeddings: A Case Study of Three Indian
Languages
- arxiv url: http://arxiv.org/abs/2107.10181v1
- Date: Wed, 21 Jul 2021 16:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:17:05.523073
- Title: Debiasing Multilingual Word Embeddings: A Case Study of Three Indian
Languages
- Title(参考訳): 多言語単語埋め込みの嫌悪:3つのインド語を事例として
- Authors: Srijan Bansal, Vishal Garimella, Ayush Suhane, Animesh Mukherjee
- Abstract要約: 単言語および多言語設定に対する偏りと偏りの異なるアプローチを定量化するための異なる手法を検討する。
提案手法は,3つのインドの言語に対する多言語埋め込みを曖昧にするための最先端性能を確立する。
- 参考スコア(独自算出の注目度): 9.208381487410191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we advance the current state-of-the-art method for debiasing
monolingual word embeddings so as to generalize well in a multilingual setting.
We consider different methods to quantify bias and different debiasing
approaches for monolingual as well as multilingual settings. We demonstrate the
significance of our bias-mitigation approach on downstream NLP applications.
Our proposed methods establish the state-of-the-art performance for debiasing
multilingual embeddings for three Indian languages - Hindi, Bengali, and Telugu
in addition to English. We believe that our work will open up new opportunities
in building unbiased downstream NLP applications that are inherently dependent
on the quality of the word embeddings used.
- Abstract(参考訳): 本稿では, 単言語単語の埋め込みを, 多言語環境でうまく一般化するために, 最先端の手法を推し進める。
単言語および多言語設定に対する偏りと偏りの異なるアプローチの定量化について検討する。
下流NLPアプリケーションにおけるバイアス緩和手法の重要性を示す。
提案手法は,ヒンディー語,ベンガル語,テルグ語に加えて,ヒンディー語,ベンガル語,テルグ語という3つの言語に対する多言語埋め込みを嫌悪する手法である。
私たちは、使用した単語の埋め込みの品質に本質的に依存する、非バイアスのない下流のNLPアプリケーションを構築する新たな機会を、我々の作業が開くと信じています。
関連論文リスト
- Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Investigating Bias in Multilingual Language Models: Cross-Lingual
Transfer of Debiasing Techniques [3.9673530817103333]
脱バイアス技術の言語間移動は実現可能であるだけでなく、有望な結果をもたらす。
我々の分析では、CrowS-Pairsデータセットの翻訳を用いて、SentenceDebiasを異なる言語にまたがる最高のテクニックであると同定した。
論文 参考訳(メタデータ) (2023-10-16T11:43:30Z) - Multilingual BERT has an accent: Evaluating English influences on
fluency in multilingual models [23.62852626011989]
我々は,高次情報源言語における文法構造が低次情報源言語に肥大化したことを示す。
このバイアスは、多言語モデルの流布度とモノリンガルのスペイン語とギリシア語のモデルの流布度を比較する新しい方法によって示される。
論文 参考訳(メタデータ) (2022-10-11T17:06:38Z) - Evaluating the Diversity, Equity and Inclusion of NLP Technology: A Case
Study for Indian Languages [35.86100962711644]
NLP技術が広く適用され、公正で有用になるためには、世界中の言語で多様な話者を提供する必要がある。
本研究では,NLP技術を3次元にわたって評価する評価パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:04Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - Mitigating Language-Dependent Ethnic Bias in BERT [11.977810781738603]
単言語BERTにおける民族バイアスの分析と緩和により、民族バイアスと言語によってどのように異なるかを研究する。
民族バイアスを観察・定量化するために,カテゴリーバイアススコアと呼ばれる新しい指標を開発した。
本稿では,まず多言語モデルと2つの単言語モデルの文脈的単語アライメントを用いた2つの緩和手法を提案する。
論文 参考訳(メタデータ) (2021-09-13T04:52:41Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。