論文の概要: Toxicity in Multilingual Machine Translation at Scale
- arxiv url: http://arxiv.org/abs/2210.03070v1
- Date: Thu, 6 Oct 2022 17:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:37:08.681040
- Title: Toxicity in Multilingual Machine Translation at Scale
- Title(参考訳): 大規模多言語機械翻訳における毒性
- Authors: Marta R. Costa-juss\`a, Eric Smith, Christophe Ropers, Daniel Licht,
Javier Ferrando, Carlos Escolano
- Abstract要約: 大規模評価データセット(HOLISTICBIAS, 472k以上の文)を英語から164言語に翻訳する際に, 付加毒性を評価し, 解析した。
有害度が最も高い出力言語は低リソースの言語であり、最も高い毒性を持つ人口軸は性的指向、性別、性別、能力である。
原因は毒性と何らかの相関があるが,45.6%の付加有毒語は高い寄与率を示しており,これらの付加有毒語の多くは誤訳によるものである可能性が示唆された。
- 参考スコア(独自算出の注目度): 1.9857559596234144
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine Translation systems can produce different types of errors, some of
which get characterized as critical or catastrophic due to the specific
negative impact they can have on users. Automatic or human evaluation metrics
do not necessarily differentiate between such critical errors and more
innocuous ones. In this paper we focus on one type of critical error: added
toxicity. We evaluate and analyze added toxicity when translating a large
evaluation dataset (HOLISTICBIAS, over 472k sentences, covering 13 demographic
axes) from English into 164 languages. The toxicity automatic evaluation shows
that added toxicity across languages varies from 0% to 5%. The output languages
with the most added toxicity tend to be low-resource ones, and the demographic
axes with the most added toxicity include sexual orientation, gender and sex,
and ability. We also perform human evaluation on a subset of 8 directions,
confirming the prevalence of true added toxicity.
We use a measurement of the amount of source contribution to the translation,
where a low source contribution implies hallucination, to interpret what causes
toxicity. We observe that the source contribution is somewhat correlated with
toxicity but that 45.6% of added toxic words have a high source contribution,
suggesting that much of the added toxicity may be due to mistranslations.
Combining the signal of source contribution level with a measurement of
translation robustness allows us to flag 22.3% of added toxicity, suggesting
that added toxicity may be related to both hallucination and the stability of
translations in different contexts. Given these findings, our recommendations
to reduce added toxicity are to curate training data to avoid mistranslations,
mitigate hallucination and check unstable translations.
- Abstract(参考訳): 機械翻訳システムは異なるタイプのエラーを発生させることができ、そのいくつかはユーザーに負の影響を与える可能性があるため、致命的あるいは破滅的なものとして特徴づけられる。
自動的あるいは人為的評価指標は、必ずしもそのようなクリティカルエラーとより無害なエラーを区別するものではない。
本稿では,1種類の致命的エラー,すなわち毒性の付加に焦点をあてる。
大規模評価データセット(HOLISTICBIAS, 472k以上の文)を英語から164言語に翻訳する際に, 付加毒性を評価し, 解析した。
毒性自動評価の結果,言語間での毒性は0%から5%に変化した。
最も高い毒性を持つ出力言語は低資源言語であり、最も高い毒性を持つ人口動態は、性的指向、性別、性、能力である。
また,8方向のサブセットでヒト評価を行い,真に付加された毒性の有病率を確認する。
我々は, 毒性の原因を解釈するために, 低ソースの寄与が幻覚を暗示する翻訳への寄与の量を測定する。
ソースの寄与は毒性と何らかの相関があるが、毒性のある単語の45.6%はソースの寄与度が高いため、添加された毒性の多くは誤翻訳によるものと考えられる。
ソースコントリビューションの信号と翻訳堅牢性の測定を組み合わせることで、22.3%の毒性が付加され、付加毒性は幻覚と異なる文脈における翻訳の安定性の両方に関係している可能性が示唆された。
これらの結果から, 誤訳を回避し, 幻覚を緩和し, 不安定な翻訳をチェックするために, 追加毒性の低減を推奨する。
関連論文リスト
- FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts [13.470734853274587]
大規模言語モデル(LLM)はますます普及しているが、バイアス、有害、有害な言語を生み出す傾向にある。
自然発生のフランスプロンプト50Kのデータセットである FrenchToxicityPrompts を作成した。
LLMの4つの主要なオープンソースファミリから14の異なるモデルを評価し,その毒性を評価する。
論文 参考訳(メタデータ) (2024-06-25T14:02:11Z) - PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models [27.996123856250065]
既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。
PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
論文 参考訳(メタデータ) (2024-05-15T14:22:33Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Facilitating Fine-grained Detection of Chinese Toxic Language:
Hierarchical Taxonomy, Resources, and Benchmarks [18.44630180661091]
既存のデータセットには、有害な型や表現の詳細なアノテーションがない。
ポストの毒性を検出するために語彙的知識を導入することが重要である。
本稿では,中国語の有害な言語をきめ細かい検出を容易にする。
論文 参考訳(メタデータ) (2023-05-08T03:50:38Z) - ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection [33.715318646717385]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。
このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。
有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文 参考訳(メタデータ) (2022-03-17T17:57:56Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。