論文の概要: Align Once, Benefit Multilingually: Enforcing Multilingual Consistency for LLM Safety Alignment
- arxiv url: http://arxiv.org/abs/2602.16660v1
- Date: Wed, 18 Feb 2026 18:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.673647
- Title: Align Once, Benefit Multilingually: Enforcing Multilingual Consistency for LLM Safety Alignment
- Title(参考訳): align Once, Benefitly multilingually: Enforceing Multilingual Consistency for LLM Safety Alignment
- Authors: Yuyan Bu, Xiaohao Liu, ZhaoXing Ren, Yaodong Yang, Juntao Dai,
- Abstract要約: 既存のモノリンガルアライメントパイプラインに組み込むことができるMLC(Multi-Lingual Consistency)ロスをプラグアンドプレイで導入する。
これにより、低リソース言語でのセマンティックレスポンスレベルの監視を必要とせずに、多言語プロンプト変種のみを使用して、複数の言語を同時にアライメントすることができる。
- 参考スコア(独自算出の注目度): 15.241143079313757
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The widespread deployment of large language models (LLMs) across linguistic communities necessitates reliable multilingual safety alignment. However, recent efforts to extend alignment to other languages often require substantial resources, either through large-scale, high-quality supervision in the target language or through pairwise alignment with high-resource languages, which limits scalability. In this work, we propose a resource-efficient method for improving multilingual safety alignment. We introduce a plug-and-play Multi-Lingual Consistency (MLC) loss that can be integrated into existing monolingual alignment pipelines. By improving collinearity between multilingual representation vectors, our method encourages directional consistency at the multilingual semantic level in a single update. This allows simultaneous alignment across multiple languages using only multilingual prompt variants without requiring additional response-level supervision in low-resource languages. We validate the proposed method across different model architectures and alignment paradigms, and demonstrate its effectiveness in enhancing multilingual safety with limited impact on general model utility. Further evaluation across languages and tasks indicates improved cross-lingual generalization, suggesting the proposed approach as a practical solution for multilingual consistency alignment under limited supervision.
- Abstract(参考訳): 言語コミュニティにまたがる大規模言語モデル(LLM)の広範な展開は、信頼性の高い多言語安全アライメントを必要とする。
しかし、近年の他の言語へのアライメントの拡張には、ターゲット言語の大規模かつ高品質な監視や、スケーラビリティを制限した高リソース言語とのペアアライメントなど、かなりのリソースが必要になることが多い。
本研究では,多言語安全アライメントを改善するための資源効率向上手法を提案する。
既存のモノリンガルアライメントパイプラインに組み込むことができるMLC(Multi-Lingual Consistency)ロスをプラグアンドプレイで導入する。
本手法は,多言語表現ベクトル間のコリニア性を改善することにより,一更新で多言語意味レベルでの方向性の整合性を促進する。
これにより、低リソース言語で追加のレスポンスレベルの監視を必要とせずに、複数言語で同時にアライメントできる。
提案手法を異なるモデルアーキテクチャとアライメントパラダイムにまたがって検証し,汎用モデルの実用性に限定した影響で多言語安全性を向上させる上での有効性を実証する。
言語とタスク間のさらなる評価は、言語間一般化の改善を示し、限られた監督下での多言語整合性整合性のための実践的な解決策として提案手法を提案する。
関連論文リスト
- AlignX: Advancing Multilingual Large Language Models with Multilingual Representation Alignment [46.881574083116085]
多言語大言語モデル(LLM)には、印象的な多言語理解と生成能力がある。
LLMのパフォーマンスと言語間アライメントは、非支配言語ではしばしば遅れる。
2段階の表現レベルフレームワークである多言語のパフォーマンスギャップを橋渡しするために,AlignXを提案する。
論文 参考訳(メタデータ) (2025-09-29T06:37:46Z) - Exploring Polyglot Harmony: On Multilingual Data Allocation for Large Language Models Pretraining [16.590296049892576]
本稿では,多言語データアロケーションを体系的に最適化する新しいフレームワークであるClimbを紹介する。
Climbの中核となるのは、言語間の相互作用を意識した言語比率を導入し、言語間の依存関係をキャプチャすることで、各言語の効果的なアロケーションを明示的に定量化している。
大規模な実験により、Climbは様々な多言語間相互作用を正確に測定できることを確認した。
論文 参考訳(メタデータ) (2025-09-19T03:34:34Z) - MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。
RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。
本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:24:51Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context [0.9130277390156759]
アライメントチューニングにより、大きな言語モデルは、推論、命令追従、有害な世代を最小化できる。
広く展開されているにもかかわらず、これらのモデルはモノリンガルバイアスを示し、言語間のアライメントの有効性に関する懸念を提起する。
現在のアライメント手法は主に英語に重点を置いており、アライメント機構が多言語設定にどのように一般化するかははっきりしない。
論文 参考訳(メタデータ) (2025-04-03T15:46:46Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。