論文の概要: Preference Tuning For Toxicity Mitigation Generalizes Across Languages
- arxiv url: http://arxiv.org/abs/2406.16235v2
- Date: Fri, 08 Nov 2024 02:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:53:13.529683
- Title: Preference Tuning For Toxicity Mitigation Generalizes Across Languages
- Title(参考訳): Toxicity Mitigationの推奨チューニングが言語間を一般化
- Authors: Xiaochen Li, Zheng-Xin Yong, Stephen H. Bach,
- Abstract要約: 本研究は、多言語大言語モデルにおける選好チューニングのゼロショット言語間一般化について考察する。
我々は,英語データのみを用いた直接選好最適化学習が,多言語オープンエンド世代における毒性を著しく低下させることを実証した。
- 参考スコア(独自算出の注目度): 17.784213168942117
- License:
- Abstract: Detoxifying multilingual Large Language Models (LLMs) has become crucial due to their increasing global use. In this work, we explore zero-shot cross-lingual generalization of preference tuning in detoxifying LLMs. Unlike previous studies that show limited cross-lingual generalization for other safety tasks, we demonstrate that Direct Preference Optimization (DPO) training with only English data can significantly reduce toxicity in multilingual open-ended generations. For example, the probability of mGPT-1.3B generating toxic continuations drops from 46.8% to 3.9% across 17 different languages after training. Our results also extend to other multilingual LLMs, such as BLOOM, Llama3, and Aya-23. Using mechanistic interpretability tools like causal intervention and activation analysis, we identified the dual multilinguality property of MLP layers in LLMs, which explains the cross-lingual generalization of DPO. Finally, we show that bilingual sentence retrieval can predict the cross-lingual transferability of DPO preference tuning.
- Abstract(参考訳): 多言語大言語モデル(LLM)のデトックス化は、そのグローバルな利用の増加により重要になっている。
そこで本研究では,LLMにおける優先調整のゼロショット言語間一般化について検討する。
他の安全タスクに対する言語間一般化を限定した従来の研究とは異なり、英語データのみを用いた直接選好最適化(DPO)訓練は、多言語オープンエンド世代における毒性を著しく低下させることを示した。
例えば、mGPT-1.3Bが有毒な継続を引き起こす確率は、訓練後に17の異なる言語で46.8%から3.9%に低下する。
また, BLOOM, Llama3, Aya-23などの多言語LLMにも拡張した。
因果介入やアクティベーション解析などの機械的解釈可能性ツールを用いて,LLMにおけるMLP層の二重多言語性特性を同定し,DPOの言語間一般化を解説した。
最後に、二言語文検索により、DPO選好調律の言語間伝達可能性を予測できることを示す。
関連論文リスト
- RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMs [13.563021984882704]
高品質な多言語フィードバックデータを生成するための,新しいスケーラブルな手法を提案する。
我々の選好訓練モデルはAya 23 8Bに対して54.4%の勝利率を達成した。
その結果,世界の人口の半分をカバーする23言語にアライメント手法のフロンティアを広げた。
論文 参考訳(メタデータ) (2024-07-02T17:42:30Z) - The Model Arena for Cross-lingual Sentiment Analysis: A Comparative Study in the Era of Large Language Models [0.4821250031784094]
本研究では,公共小言語モデル (M) と大規模言語モデル (LLM) の言語間移動能力の比較を行った。
以上の結果から,SMLMは公立モデルの中で,ゼロショットのクロスランガル性能に優れていた。
数ショットの言語間設定では、パブリックLLMは適応ポテンシャルの強化を示す。
論文 参考訳(メタデータ) (2024-06-27T17:38:45Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Unveiling Linguistic Regions in Large Language Models [49.298360366468934]
大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。
本稿では,LLMの言語能力に関するいくつかの調査を行う。
論文 参考訳(メタデータ) (2024-02-22T16:56:13Z) - MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization [65.31411639849516]
本稿では,他言語の推論過程を支配言語と整合させるために,MAPO(Multilingual-Alignment-as-Preference Optimization)フレームワークを提案する。
具体的には,非支配言語と支配言語における回答の整合性について,既成の翻訳モデルを用いて検討する。
実験により、MAPOは様々なモデルの多言語推論において、安定して大幅な改善を達成できることが示された。
論文 参考訳(メタデータ) (2024-01-12T18:03:54Z) - Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection [19.399281609371258]
高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
論文 参考訳(メタデータ) (2023-11-03T16:51:07Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Exploring Human-Like Translation Strategy with Large Language Models [93.49333173279508]
大規模言語モデル(LLM)は、一般的なシナリオにおいて印象的な機能を示している。
本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。
品質推定に基づく選択機構を用いて,ノイズや不ヘッピーな知識を抽出する。
論文 参考訳(メタデータ) (2023-05-06T19:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。