Fugu-MT 論文翻訳(概要): MiTTenS: A Dataset for Evaluating Misgendering in Translation

論文の概要: MiTTenS: A Dataset for Evaluating Misgendering in Translation

arxiv url: http://arxiv.org/abs/2401.06935v1
Date: Sat, 13 Jan 2024 00:08:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 20:57:40.366331
Title: MiTTenS: A Dataset for Evaluating Misgendering in Translation
Title（参考訳）: MiTTenS: 翻訳における誤認識を評価するデータセット
Authors: Kevin Robinson, Sneha Kudugunta, Romina Stella, Sunipa Dev, Jasmijn Bastings
Abstract要約: ミスジェンダー(英: missgendering)とは、性同一性を反映しない方法で誰かを指す行為である。さまざまな言語ファミリーやスクリプトから26言語をカバーするデータセットMiTTenSを紹介した。
参考スコア（独自算出の注目度）: 16.446952262028358
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Misgendering is the act of referring to someone in a way that does not reflect their gender identity. Translation systems, including foundation models capable of translation, can produce errors that result in misgendering harms. To measure the extent of such potential harms when translating into and out of English, we introduce a dataset, MiTTenS, covering 26 languages from a variety of language families and scripts, including several traditionally underpresented in digital resources. The dataset is constructed with handcrafted passages that target known failure patterns, longer synthetically generated passages, and natural passages sourced from multiple domains. We demonstrate the usefulness of the dataset by evaluating both dedicated neural machine translation systems and foundation models, and show that all systems exhibit errors resulting in misgendering harms, even in high resource languages.
Abstract（参考訳）: ミスジェンダー(英: missgendering)とは、性同一性を反映しない方法で誰かを指す行為である。翻訳可能な基礎モデルを含む翻訳システムは、誤訳の被害をもたらすエラーを発生させることができる。英語の翻訳や翻訳を行う際の潜在的な害の程度を測定するために,従来デジタルリソースに不足していたものを含む,さまざまな言語ファミリーやスクリプトから26の言語をカバーしたデータセットMiTTenSを導入する。データセットは、既知の障害パターン、より長い合成された通路、複数のドメインから派生した自然通路をターゲットにした手作りの通路で構築されている。我々は、ニューラルネットワーク翻訳システムと基礎モデルの両方を評価し、データセットの有用性を実証し、高いリソース言語であっても、すべてのシステムが誤りを犯すことを示す。

関連論文リスト

The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文参考訳（メタデータ） (2024-09-26T15:08:17Z)
A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文参考訳（メタデータ） (2024-09-04T13:49:45Z)
Reducing Gender Bias in Machine Translation through Counterfactual Data Generation [0.0]
訳語訳語訳語訳語訳語訳語訳語訳語訳語訳語訳語訳語訳詞訳語訳語訳語訳語訳語訳語訳語訳語訳語訳語訳語訳語訳語訳語訳語訳語訳語訳語また,反実データ生成技術を用いて作成したドメイン内データを活用する新しいドメイン適応手法を提案する。関連するコードはGithubで入手できる。
論文参考訳（メタデータ） (2023-11-27T23:03:01Z)
Target-Agnostic Gender-Aware Contrastive Learning for Mitigating Bias in Multilingual Machine Translation [28.471506840241602]
ジェンダーバイアスは機械翻訳において重要な問題であり、バイアス軽減技術の研究が進行中である。本稿では,新しいアプローチに基づくバイアス緩和手法を提案する。 Gender-Aware Contrastive Learning, GACLは、文脈性情報を非明示性単語の表現にエンコードする。
論文参考訳（メタデータ） (2023-05-23T12:53:39Z)
Mitigating Data Imbalance and Representation Degeneration in Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。 Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文参考訳（メタデータ） (2023-05-22T07:31:08Z)
MultiTACRED: A Multilingual Version of the TAC Relation Extraction Dataset [6.7839993945546215]
そこで本研究では,9つの言語群から12種類の言語を対象とするMultiTACREDデータセットについて紹介する。翻訳とアノテーションのプロジェクションの品質を分析し、エラーカテゴリを特定し、訓練済みの単言語および多言語言語モデルの微調整を実験的に評価する。対象言語の多くにおいて、モノリンガルREモデルの性能は英語オリジナルに匹敵するものであり、英語とターゲット言語データの組み合わせで訓練された多言語モデルは、モノリンガルモデルよりも優れている。
論文参考訳（メタデータ） (2023-05-08T09:48:21Z)
Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。 OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文参考訳（メタデータ） (2023-05-04T12:21:52Z)
Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文参考訳（メタデータ） (2022-05-09T00:24:13Z)
Investigating Failures of Automatic Translation in the Case of Unambiguous Gender [13.58884863186619]
トランスフォーマーベースのモデルは、ニューラルマシン翻訳(NMT)のための現代の作業馬です。我々は、名詞の性別をマークしない言語から他の名詞に翻訳することに関して、トランスフォーマーモデルによる体系的で初歩的なエラーのクラスを観察する。トランスベースのNMTモデルがジェンダーを正しく翻訳する能力を測定するための評価スキームとデータセットをリリースします。
論文参考訳（メタデータ） (2021-04-16T00:57:36Z)
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文参考訳（メタデータ） (2020-10-26T13:57:20Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。