論文の概要: Misgendering and Assuming Gender in Machine Translation when Working
with Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2401.13165v2
- Date: Sat, 27 Jan 2024 17:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 19:58:50.553754
- Title: Misgendering and Assuming Gender in Machine Translation when Working
with Low-Resource Languages
- Title(参考訳): 低リソース言語を用いた機械翻訳における誤訳と性別推定
- Authors: Sourojit Ghosh, Srishti Chatterjee
- Abstract要約: 本章では、低リソース言語の文脈における機械翻訳(MT)における性別関連エラーに焦点を当てる。
まず、低リソース言語とは何かを説明し、そのような言語階層を形成する社会的・計算的要因を分離できないかを検討する。
本稿では,このような誤りが言語的消去や表現的害に繋がるポストコロニアルおよび社会的影響について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This chapter focuses on gender-related errors in machine translation (MT) in
the context of low-resource languages. We begin by explaining what low-resource
languages are, examining the inseparable social and computational factors that
create such linguistic hierarchies. We demonstrate through a case study of our
mother tongue Bengali, a global language spoken by almost 300 million people
but still classified as low-resource, how gender is assumed and inferred in
translations to and from the high(est)-resource English when no such
information is provided in source texts. We discuss the postcolonial and
societal impacts of such errors leading to linguistic erasure and
representational harms, and conclude by discussing potential solutions towards
uplifting languages by providing them more agency in MT conversations.
- Abstract(参考訳): 本章では、低リソース言語の文脈における機械翻訳(MT)における性別関連エラーに焦点を当てる。
まず、低リソース言語とは何かを説明し、そのような言語階層を形成する不可分な社会的および計算的要因を調べます。
本稿は,母国語ベンガル語の事例研究を通じて,約3億人が話すグローバル言語であるベンガル語を事例として紹介する。
本稿では,このような誤りが言語的消去や表現的害に繋がるポストコロニアル的・社会的影響について論じるとともに,MT会話においてより多くのエージェンシーを提供することで,言語強化に向けた潜在的な解決策について議論する。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - On Evaluating and Mitigating Gender Biases in Multilingual Settings [5.248564173595024]
複数言語設定におけるバイアスの評価と緩和に関する課題について検討する。
まず,事前学習したマスキング言語モデルにおいて,性別バイアスを評価するベンチマークを作成する。
我々は、様々なデバイアス法を英語以上に拡張し、SOTAの大規模多言語モデルの有効性を評価する。
論文 参考訳(メタデータ) (2023-07-04T06:23:04Z) - Gender Lost In Translation: How Bridging The Gap Between Languages
Affects Gender Bias in Zero-Shot Multilingual Translation [12.376309678270275]
並列データが利用できない言語間のギャップを埋めることは、多言語NTTの性別バイアスに影響を与える。
本研究では, 言語に依存しない隠蔽表現が, ジェンダーの保存能力に及ぼす影響について検討した。
言語に依存しない表現は、ゼロショットモデルの男性バイアスを緩和し、ブリッジ言語におけるジェンダーインフレクションのレベルが増加し、話者関連性合意に対するより公平なジェンダー保存に関するゼロショット翻訳を超越することがわかった。
論文 参考訳(メタデータ) (2023-05-26T13:51:50Z) - Target-Agnostic Gender-Aware Contrastive Learning for Mitigating Bias in
Multilingual Machine Translation [28.471506840241602]
ジェンダーバイアスは機械翻訳において重要な問題であり、バイアス軽減技術の研究が進行中である。
本稿では,新しいアプローチに基づくバイアス緩和手法を提案する。
Gender-Aware Contrastive Learning, GACLは、文脈性情報を非明示性単語の表現にエンコードする。
論文 参考訳(メタデータ) (2023-05-23T12:53:39Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - CORGI-PM: A Chinese Corpus For Gender Bias Probing and Mitigation [28.38578407487603]
高品質なラベル付き32.9k文を含む中国語cOrpus foR Gender bIas Probing and Mitigation CORGI-PMを提案する。
我々は,テキスト性バイアスを自動的に検出し,分類し,緩和するモデルを必要とする,テキスト性バイアスを緩和する3つの課題に対処する。
CORGI-PMは、性偏見と緩和のための最初の文レベルの中国語コーパスである。
論文 参考訳(メタデータ) (2023-01-01T12:48:12Z) - Some Languages are More Equal than Others: Probing Deeper into the
Linguistic Disparity in the NLP World [2.0777058026628583]
NLP世界の言語格差は近年広く認識されている問題である。
本稿では,世界の言語に存在する格差を包括的に分析する。
論文 参考訳(メタデータ) (2022-10-16T12:50:30Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。