論文の概要: "I'm" Lost in Translation: Pronoun Missteps in Crowdsourced Data Sets
- arxiv url: http://arxiv.org/abs/2304.13557v1
- Date: Sat, 22 Apr 2023 09:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 14:10:30.907702
- Title: "I'm" Lost in Translation: Pronoun Missteps in Crowdsourced Data Sets
- Title(参考訳): クラウドソーシングされたデータセットにおける「i'm」の誤訳
- Authors: Katie Seaborn, Yeongdae Kim
- Abstract要約: クラウドソーシングのイニシアチブは、自然言語処理(NLP)に使用される大規模でオープンなデータセットの多言語翻訳に重点を置いている。
本研究は,クラウドソース型タトエバデータベースにおいて,英語と日本語で翻訳された代名詞の事例に着目した。
男性代名詞の偏見は,複数の言語が他の方法で説明されているにもかかわらず,全体として存在することがわかった。
- 参考スコア(独自算出の注目度): 13.32560004325655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As virtual assistants continue to be taken up globally, there is an
ever-greater need for these speech-based systems to communicate naturally in a
variety of languages. Crowdsourcing initiatives have focused on multilingual
translation of big, open data sets for use in natural language processing
(NLP). Yet, language translation is often not one-to-one, and biases can
trickle in. In this late-breaking work, we focus on the case of pronouns
translated between English and Japanese in the crowdsourced Tatoeba database.
We found that masculine pronoun biases were present overall, even though
plurality in language was accounted for in other ways. Importantly, we detected
biases in the translation process that reflect nuanced reactions to the
presence of feminine, neutral, and/or non-binary pronouns. We raise the issue
of translation bias for pronouns and offer a practical solution to embed
plurality in NLP data sets.
- Abstract(参考訳): 仮想アシスタントが世界中で普及を続ける中、これらの音声ベースのシステムは様々な言語で自然にコミュニケーションする必要がある。
クラウドソーシングのイニシアチブは、自然言語処理(NLP)で使用する、大規模でオープンなデータセットの多言語翻訳に重点を置いている。
しかし、言語翻訳は一対一ではないことが多く、バイアスが入り込むことがある。
本稿では,クラウドソーシングによるtatoebaデータベースにおいて,英語と日本語間の代名詞の翻訳事例に注目した。
男性代名詞のバイアスは,複数の言語が他の方法で説明されているにもかかわらず,全体的にみられた。
重要な点は,女性,中性,非バイナリ代名詞の存在に対するニュアンス反応を反映した翻訳過程におけるバイアスを検出することである。
我々は代名詞の翻訳バイアスの問題を提起し、複数のNLPデータセットを組み込むための実用的な解決策を提供する。
関連論文リスト
- Are you talking to ['xem'] or ['x', 'em']? On Tokenization and
Addressing Misgendering in LLMs with Pronoun Tokenization Parity [79.41081292703352]
代名詞のトークン化パリティ (PTP) は, トークンの機能的構造を保ち, 新生代名詞の誤認を減らすための新しいアプローチである。
代名詞の整合性に基づく尺度と新しい構文に基づく尺度を用いて,PTPの有効性を評価する。
論文 参考訳(メタデータ) (2023-12-19T01:28:46Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - Gender Lost In Translation: How Bridging The Gap Between Languages
Affects Gender Bias in Zero-Shot Multilingual Translation [12.376309678270275]
並列データが利用できない言語間のギャップを埋めることは、多言語NTTの性別バイアスに影響を与える。
本研究では, 言語に依存しない隠蔽表現が, ジェンダーの保存能力に及ぼす影響について検討した。
言語に依存しない表現は、ゼロショットモデルの男性バイアスを緩和し、ブリッジ言語におけるジェンダーインフレクションのレベルが増加し、話者関連性合意に対するより公平なジェンダー保存に関するゼロショット翻訳を超越することがわかった。
論文 参考訳(メタデータ) (2023-05-26T13:51:50Z) - What about em? How Commercial Machine Translation Fails to Handle
(Neo-)Pronouns [26.28827649737955]
単語代名詞の翻訳は、例えば非バイナリな個人など、余分に分類されたグループに対して区別することができる。
3つの商用機械翻訳システムが3人称代名詞の翻訳方法を検討する。
我々の誤り分析は、性中立代名詞の存在が文法的・意味的な翻訳誤りにつながることをしばしば示している。
論文 参考訳(メタデータ) (2023-05-25T13:34:09Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Repairing Pronouns in Translation with BERT-Based Post-Editing [7.6344611819427035]
いくつかの領域では、代名詞選択がNMTシステムのエラーの半数以上を占めることが示される。
次に、ソース側文のチャンクを使用して、代名詞予測タスクでBERTを微調整するソリューションを検討します。
論文 参考訳(メタデータ) (2021-03-23T21:01:03Z) - Unmasking Contextual Stereotypes: Measuring and Mitigating BERT's Gender
Bias [12.4543414590979]
文脈化された単語の埋め込みは、NLPシステムにおける標準的な埋め込みを置き換えている。
英語とドイツ語の専門職名と性別記述対象語との関係を調べた結果,性別バイアスを測定した。
偏見を測定する手法はドイツ語のような豊かでジェンダーの指標を持つ言語に適していることを示す。
論文 参考訳(メタデータ) (2020-10-27T18:06:09Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。