論文の概要: Added Toxicity Mitigation at Inference Time for Multimodal and Massively
Multilingual Translation
- arxiv url: http://arxiv.org/abs/2311.06532v1
- Date: Sat, 11 Nov 2023 11:02:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 18:08:02.379895
- Title: Added Toxicity Mitigation at Inference Time for Multimodal and Massively
Multilingual Translation
- Title(参考訳): マルチモーダル・大規模多言語翻訳のための推論時間における毒性緩和の付加
- Authors: Marta R. Costa-juss\`a and David Dale and Maha Elbayad and Bokai Yu
- Abstract要約: 翻訳の文脈で有毒性を加えることは、入力の中に存在するものよりも多くの有毒性を持つ翻訳出力を生成することを指す。
MinToxは、追加の毒性を特定し、推論時に作用するこの問題を軽減するための、新しいパイプラインである。
- 参考スコア(独自算出の注目度): 8.336852643944338
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Added toxicity in the context of translation refers to the fact of producing
a translation output with more toxicity than there exists in the input. In this
paper, we present MinTox which is a novel pipeline to identify added toxicity
and mitigate this issue which works at inference time. MinTox uses a toxicity
detection classifier which is multimodal (speech and text) and works in
languages at scale. The mitigation method is applied to languages at scale and
directly in text outputs. MinTox is applied to SEAMLESSM4T, which is the latest
multimodal and massively multilingual machine translation system. For this
system, MinTox achieves significant added toxicity mitigation across domains,
modalities and language directions. MinTox manages to approximately filter out
from 25% to 95% of added toxicity (depending on the modality and domain) while
keeping translation quality.
- Abstract(参考訳): 翻訳の文脈で毒性を加えることは、入力の中に存在するものよりも毒性の高い翻訳出力を生成するという事実を指す。
本稿では, 新規な毒性同定パイプラインであるmintoxを提案し, 推理時間に作用するこの問題を緩和する。
MinToxは、マルチモーダル(音声とテキスト)で大規模言語で動作する毒性検出分類器を使用している。
この緩和法は、大規模およびテキスト出力に直接言語に適用される。
mintoxは、最新のマルチモーダル機械翻訳システムであるseamlessm4tに適用されている。
このシステムのために、MinToxはドメイン、モダリティ、言語方向を横断する毒性を著しく緩和する。
MinToxは、翻訳品質を維持しながら、毒性(モダリティとドメインに依存している)の25%から95%まで、ほぼろ過する。
関連論文リスト
- Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models [27.996123856250065]
既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。
PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
論文 参考訳(メタデータ) (2024-05-15T14:22:33Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector [10.37639482435147]
毒性ラベルを持つ最初の多言語音声ベースデータセットであるMuToxを紹介する。
データセットは、英語とスペイン語で20,000の音声発声と、他の19言語で4,000の音声発声で構成されている。
論文 参考訳(メタデータ) (2024-01-10T10:37:45Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - ReSeTOX: Re-learning attention weights for toxicity mitigation in
machine translation [2.2344764434954256]
ReSetoXは、再トレーニングを必要とせずに有毒な言語の導入を緩和する。
実験の結果, ReSeTOXは著明な57%の毒性低下を示した。
論文 参考訳(メタデータ) (2023-05-19T15:46:08Z) - Facilitating Fine-grained Detection of Chinese Toxic Language:
Hierarchical Taxonomy, Resources, and Benchmarks [18.44630180661091]
既存のデータセットには、有害な型や表現の詳細なアノテーションがない。
ポストの毒性を検出するために語彙的知識を導入することが重要である。
本稿では,中国語の有害な言語をきめ細かい検出を容易にする。
論文 参考訳(メタデータ) (2023-05-08T03:50:38Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - Language Detoxification with Attribute-Discriminative Latent Space [59.167432249229584]
トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得た。
また、侮辱、脅し、暴言などの有毒なテキストを生成でき、現実世界の応用を制限できる。
本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
論文 参考訳(メタデータ) (2022-10-19T06:54:42Z) - Toxicity in Multilingual Machine Translation at Scale [3.4620477930009472]
大規模評価データセット(HOLISTICBIAS, 472k以上の文)を英語から164言語に翻訳する際に, 付加毒性を評価し, 解析した。
自動毒性評価は、言語間での毒性が0%から5%に変化することを示している。
有害度が最も高い出力言語は低リソースの言語であり、最も高い毒性を持つ人口軸は性的指向、性別、性別、能力である。
論文 参考訳(メタデータ) (2022-10-06T17:26:27Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。