論文の概要: Safe at the Margins: A General Approach to Safety Alignment in Low-Resource English Languages -- A Singlish Case Study
- arxiv url: http://arxiv.org/abs/2502.12485v1
- Date: Tue, 18 Feb 2025 03:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:47.054121
- Title: Safe at the Margins: A General Approach to Safety Alignment in Low-Resource English Languages -- A Singlish Case Study
- Title(参考訳): マルジンの安全--低資源英語における安全アライメントへの一般的なアプローチ--Singlish Case Study
- Authors: Isaac Lim, Shaun Khoo, Watson Chua, Goh Jiayi, Jessica Foo,
- Abstract要約: 本稿では,シンガポール固有のクレオールであるシングリッシュの毒性を最小化するため,SEA-Lion-v2.1-インストラクト(Llama3-8B変異体)の整合性について述べる。
教師付き微調整とKTO(Kahneman-Tversky Optimization)のペアとペアなしの選好の方がより効率的であることが判明した。
また,KTO,KTO-Sの簡易かつ斬新な修正も導入した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: To ensure safe usage, Large Language Models (LLMs) typically undergo alignment with human-defined values. However, this alignment often relies on primarily English data and is biased towards Western-centric values, limiting its effectiveness in low-resource language settings. In this paper, we describe our approach for aligning SEA-Lion-v2.1-Instruct (a Llama3-8B variant) to minimize toxicity in Singlish, an English creole specific to Singapore. We find that supervised fine-tuning and Kahneman-Tversky Optimization (KTO) on paired and unpaired preferences is more sample efficient and yields significantly better results than Direct Preference Optimization (DPO). Our analysis reveals that DPO implicitly enforces a weaker safety objective than KTO, and that SFT complements KTO by improving training stability. Finally, we introduce a simple but novel modification to KTO, KTO-S, which improves training stability through better gradient exploitation. Overall, we present a general approach for safety alignment conducive to low-resource English languages, successfully reducing toxicity by 99\% on our Singlish benchmark, with gains generalizing to the broader TOXIGEN dataset while maintaining strong performance across standard LLM benchmarks.
- Abstract(参考訳): 安全性を確保するため、LLM(Large Language Models)は通常、人間の定義値と整合する。
しかし、このアライメントは主に英語のデータに依存しており、西洋中心の値に偏りがあり、低リソースの言語設定での有効性を制限している。
本稿では,シンガポール固有のクレオールであるシングリッシュの毒性を最小化するため,SEA-Lion-v2.1-インストラクト(Llama3-8B変異体)の整合性について述べる。
教師付き微調整とKTO(Kahneman-Tversky Optimization)のペアとペアなしの選好は、よりサンプリング効率が高く、直接選好最適化(DPO)よりもはるかに優れた結果が得られることがわかった。
分析の結果,DPOはKTOよりも弱い安全目標を暗黙的に実施し,SFTはKTOを補完し,訓練安定性を向上することが明らかとなった。
最後に,KTO,KTO-Sの簡易かつ斬新な修正を導入する。
全体として、低リソースの英語に適応する安全性アライメントのための一般的なアプローチを提案し、Singlishベンチマークでは毒性を99 %減らし、標準LLMベンチマークで高い性能を維持しつつ、より広範なTOXIGENデータセットに一般化した。
関連論文リスト
- Direct Preference Optimization Using Sparse Feature-Level Constraints [47.15096507230884]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis [20.023077870947024]
本研究ではコントラスト優先最適化(Contrastive Preference Optimization, CPO)に注目し, 翻訳品質に対する嗜好に基づくアライメントの影響を評価する実験を行う。
以上の結果から,CPO はアライメント指標に関して高品質なデータに対して常に Supervised Fine-Tuning (SFT) を上回りながら,下流評価指標間の不安定性をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-30T08:01:44Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - ABC Align: Large Language Model Alignment for Safety & Accuracy [0.0]
大規模言語モデル(LLM)のための新しいアライメント手法ABC Alignを提案する。
合成データ生成、選好最適化、ポストトレーニングモデル量子化における最近のブレークスルーの上に構築された一連のデータとメソッドを組み合わせる。
我々の統一的なアプローチは、標準ベンチマークに対して測定されたように、バイアスを軽減し、推論能力を保ちながら精度を向上させる。
論文 参考訳(メタデータ) (2024-08-01T06:06:25Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Enhancing LLM Safety via Constrained Direct Preference Optimization [8.22888921018027]
我々は、最近提案されたAIシステムのためのDPO(Direct Preference Optimization)アプローチの新たな拡張であるConstrained DPO(C-DPO)を紹介する。
二重勾配降下法とDPOを併用することにより,強化学習を用いることなく,有用性と無害性との間のほぼ最適なトレードオフを同定する。
提案手法は, DPO に欠落している LLM に対して, 同じ安全性制約の下では, 極めて高い報酬を得られることを実証的に保証する。
論文 参考訳(メタデータ) (2024-03-04T20:39:24Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Demystify Optimization Challenges in Multilingual Transformers [21.245418118851884]
ロスランドスケープとパラメータの可塑性の観点から最適化課題を考察する。
不均衡なトレーニングデータは、高いリソース言語と低いリソース言語の間でタスクの干渉を引き起こす。
Curvature Aware Task Scaling (CATS) を提案し、特にリソースの少ない場合の最適化と一般化の両方を改善します。
論文 参考訳(メタデータ) (2021-04-15T17:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。