論文の概要: LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety
- arxiv url: http://arxiv.org/abs/2604.12710v1
- Date: Mon, 13 Apr 2026 15:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.456339
- Title: LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety
- Title(参考訳): LASA:LLM安全のためのセマンティックボツネックにおける言語非依存的セマンティックアライメント
- Authors: Junxiao Yang, Haoran Liu, Jinzhe Tu, Jiale Cheng, Zhexin Zhang, Shiyao Cui, Jiaqi Weng, Jialing Tao, Hui Xue, Hongning Wang, Han Qiu, Minlie Huang,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば高リソース言語で強力な安全性性能を示すが、低リソース言語では深刻な脆弱性を示す。
このギャップは、言語に依存しない意味理解能力と、高リソース言語に偏った言語に支配的な安全アライメントのミスマッチによるものと考えられる。
セマンティック・アライメント(LASA)を提案し,セマンティック・ボトルネックに直接安全アライメントを固定する。
- 参考スコア(独自算出の注目度): 88.98698230989186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often demonstrate strong safety performance in high-resource languages, yet exhibit severe vulnerabilities when queried in low-resource languages. We attribute this gap to a mismatch between language-agnostic semantic understanding ability and language-dominant safety alignment biased toward high-resource languages. Consistent with this hypothesis, we empirically identify the semantic bottleneck in LLMs, an intermediate layer in which the geometry of model representations is governed primarily by shared semantic content rather than language identity. Building on this observation, we propose Language-Agnostic Semantic Alignment (LASA), which anchors safety alignment directly in semantic bottlenecks. Experiments show that LASA substantially improves safety across all languages: average attack success rate (ASR) drops from 24.7% to 2.8% on LLaMA-3.1-8B-Instruct and remains around 3-4% across Qwen2.5 and Qwen3 Instruct models (7B-32B). Together, our analysis and method offer a representation-level perspective on LLM safety, suggesting that safety alignment requires anchoring safety understanding not in surface text, but in the model's language-agnostic semantic space.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高リソース言語では強力な安全性能を示すことが多いが、低リソース言語では厳しい脆弱性を示す。
このギャップは、言語に依存しない意味理解能力と、高リソース言語に偏った言語に支配的な安全性アライメントのミスマッチによるものと考えられる。
この仮説に従えば、モデル表現の幾何学が主に言語アイデンティティではなく、共有意味コンテンツによって支配される中間層であるLSMにおける意味的ボトルネックを経験的に特定する。
本研究は,Language-Agnostic Semantic Alignment (LASA)を提案する。
LLaMA-3.1-8B-インストラクトでは平均攻撃成功率(ASR)が24.7%から2.8%に低下し、Qwen2.5とQwen3インストラクトモデル(7B-32B)の約3.4%が残っている。
解析と手法により,LLMの安全性の表現レベルの観点から,安全性の整合性は,表層テキストではなく,言語に依存しないセマンティック空間において,アンカーの安全性理解を必要とすることが示唆された。
関連論文リスト
- IndicSafe: A Benchmark for Evaluating Multilingual LLM Safety in South Asia [0.6978180153516672]
Indic言語12言語を対象に,大規模言語モデル(LLM)の安全性を初めて体系的に評価した。
言語間の合意はわずか12.8%であり、textttSAFEレートは言語間で17%を超えている。
Indicデプロイメントの文化的な安全性評価を可能にする最初のベンチマークである textscIndicSafe をリリースする。
論文 参考訳(メタデータ) (2026-03-18T16:54:07Z) - SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures [36.95168918567729]
既存のマルチ言語安全ベンチマークは、しばしば機械翻訳された英語データに依存している。
SEA-SafeguardBenchは,SEAの最初の人間認証安全ベンチマークである。
8つの言語、21,640のサンプル、および3つのサブセット(ジェネラル、イン・ザ・ワイルド、コンテンツ生成)をカバーする。
論文 参考訳(メタデータ) (2025-12-05T07:57:57Z) - Self-Aware Safety Augmentation: Leveraging Internal Semantic Understanding to Enhance Safety in Vision-Language Models [21.961325147038867]
大規模視覚言語モデル(LVLM)は、言語のみのバックボーンと比較して有害な入力に対して脆弱である。
我々はこれらの能力を、言語表現の安全性認識、意味理解、アライメントとして定義する。
これらの知見に触発され,従来の安全指向層に情報的意味表現を投影する技術である textbfSelf-Aware Safety Augmentation (SASA) を提案する。
論文 参考訳(メタデータ) (2025-07-29T09:48:57Z) - The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context [0.9130277390156759]
アライメントチューニングにより、大きな言語モデルは、推論、命令追従、有害な世代を最小化できる。
広く展開されているにもかかわらず、これらのモデルはモノリンガルバイアスを示し、言語間のアライメントの有効性に関する懸念を提起する。
現在のアライメント手法は主に英語に重点を置いており、アライメント機構が多言語設定にどのように一般化するかははっきりしない。
論文 参考訳(メタデータ) (2025-04-03T15:46:46Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。
M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。
39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。