論文の概要: Low-Resource Safety Failures Are Action Failures, Not Representation Failures
- arxiv url: http://arxiv.org/abs/2606.01196v1
- Date: Sun, 31 May 2026 12:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.374337
- Title: Low-Resource Safety Failures Are Action Failures, Not Representation Failures
- Title(参考訳): 低リソースの安全障害は行動障害であり、表現障害ではない
- Authors: Rashad Aziz, Ikhlasul Akmal Hanif, Fajri Koto,
- Abstract要約: 高リソース言語で学んだ安全性アライメントは、低リソース言語への転送が不十分である。
AdaSteerとCASTはこの障害を相互に継承する。
私たちはこれを、高リソースのゲートであるリトレーニングではなく、リカレーションによって活用します。
- 参考スコア(独自算出の注目度): 12.15943143346378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment learned in high-resource languages transfers poorly to low-resource languages. Models refuse harmful prompts in English but fail to refuse when the same prompts are translated into Swahili or Burmese. Adaptive steering methods like AdaSteer and CAST inherit this failure cross-lingually. We diagnose where transfer breaks down. Across Qwen2.5-7B, Gemma-2-9B, and Llama-3.1-8B on 23 languages, the harmfulness direction extracted from high-resource activations linearly separates harmful from harmless low-resource prompts nearly as well as high-resource ones. The relevant representation is present. Yet harmful refusal drops from 87.9% to 43.9%. The model fails to convert the representation into refusal. What fails to transfer is calibration of the safety decision, not the underlying representation. We exploit this by recalibrating, rather than retraining, a high-resource gate: a low-rank logistic readout with its decision threshold reset using as few as 1 to 4 target-language examples per class. The gate routes between refusal steering and harmfulness-direction ablation, substantially raising mean refusal selectivity ($Δ$ = harmful $-$ harmless refusal) from 33.6 for the strongest adapted baseline to 54.5 while preserving MMLU utility. These results suggest that some low-resource safety failures can be repaired by recalibrating existing representations rather than learning new ones. Our code is released: https://github.com/rashadaziz/low-resource-safety.
- Abstract(参考訳): 高リソース言語で学んだ安全性アライメントは、低リソース言語への転送が不十分である。
モデルは英語の有害なプロンプトを拒否するが、同じプロンプトがスワヒリ語やビルマ語に翻訳されると拒否する。
AdaSteerやCASTといったアダプティブなステアリングメソッドは、この障害を相互に継承する。
転送が故障した場所を診断する。
Qwen2.5-7B、Gemma-2-9B、Llama-3.1-8Bの23言語において、高リソース活性化から抽出された有害性方向は、害のない低リソースプロンプトと高リソースプロンプトとを線形に分離する。
関連する表現が存在する。
しかし、有害な拒絶率は87.9%から43.9%に低下する。
モデルは表現を拒否に変換することに失敗する。
転送に失敗したのは、下層の表現ではなく、安全決定の校正である。
高いリソースゲート:クラス毎に1から4つのターゲット言語例を使用して、その決定しきい値がリセットされたローランクなロジスティック読み出し。
拒絶の操舵と有害な指向性アブレーションの間のゲートルートは、平均的拒絶選択性(Δ$ = 有害な$-$無害な拒絶)を、MMLUユーティリティを保ちながら、最強適応ベースラインの33.6から54.5へと著しく高めている。
これらの結果から,新しいものを学ぶのではなく,既存の表現を再検討することで,低リソースの安全性障害を修復できることが示唆された。
私たちのコードは、https://github.com/rashadaziz/low-resource-safety.comでリリースされています。
関連論文リスト
- Why Do Safety Guardrails Degrade Across Languages? [21.521293656854183]
大規模な言語モデルは、英語以外の言語で安全性の低下を示す。
我々は、安全運転要因を分離する潜在変数モデル、多群項目応答理論(IRT)フレームワークを導入する。
5つの閉モデルファミリーと10の言語にまたがる61のモデル構成の安全性のロバスト性を評価する。
論文 参考訳(メタデータ) (2026-05-16T22:08:54Z) - Crosslingual On-Policy Self-Distillation for Multilingual Reasoning [48.68444770923683]
Crosslingual On-Policy Self-Distillation (COPSD)は、モデル自身の高リソース推論動作を低リソース言語に転送する。
17の低リソースアフリカ言語に対する実験では、COPSDはモデルサイズ全体の低リソース数学的推論を一貫して改善している。
論文 参考訳(メタデータ) (2026-05-10T14:06:09Z) - LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety [88.98698230989186]
大規模言語モデル(LLM)は、しばしば高リソース言語で強力な安全性性能を示すが、低リソース言語では深刻な脆弱性を示す。
このギャップは、言語に依存しない意味理解能力と、高リソース言語に偏った言語に支配的な安全アライメントのミスマッチによるものと考えられる。
セマンティック・アライメント(LASA)を提案し,セマンティック・ボトルネックに直接安全アライメントを固定する。
論文 参考訳(メタデータ) (2026-04-13T15:59:50Z) - LSR: Linguistic Safety Robustness Benchmark for Low-Resource West African Languages [0.0]
我々は、西アフリカの言語における言語間拒絶劣化を測定するための最初の体系的ベンチマークであるLSRを紹介する。
文化に根ざした14の攻撃プローブにおけるGemini 2.5 Flashを4つの有害カテゴリで評価した。
西アフリカの言語全体では、拒絶率は35~55%に低下し、イガラは最も深刻な減少を示している。
論文 参考訳(メタデータ) (2026-02-27T22:54:31Z) - Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety [3.8433556466595937]
大規模言語モデル (LLM) は世界中に展開されているが、その安全性は英語を中心に維持されている。
本稿では,多言語ジェイルブレイク防止における知識蒸留(KD)の新たな応用について紹介する。
プロプライエタリな教師モデルの拒絶行動を,Meta-Llama-3-8B-Instruct, Gemma-2-2B-IT, Qwen3-8Bの3つのオープンソース学生モデルに蒸留する。
論文 参考訳(メタデータ) (2025-12-08T06:48:17Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - OpenAI's GPT-OSS-20B Model and Safety Alignment Issues in a Low-Resource Language [0.0]
本稿では,OpenAI の GPT-OSS-20b モデルで発見された脆弱性の集合を概説する。
私たちの仕事のコアモチベーションは、過小評価されたコミュニティからのユーザに対するモデルの信頼性に疑問を呈することです。
主要なアフリカの言語であるHausaを用いて、モデルの振る舞いにおけるバイアス、不正確さ、文化的不感を明らかにする。
論文 参考訳(メタデータ) (2025-09-26T20:14:54Z) - Refusal Direction is Universal Across Safety-Aligned Languages [66.64709923081745]
本稿では,PolyRefuseを用いた14言語にわたる大規模言語モデル(LLM)の拒絶動作について検討する。
英語から抽出されたベクトルは、ほぼ完全な効果で他の言語での拒絶を回避できる。
この伝達性は、埋め込み空間における言語間の拒否ベクトルの並列性に起因し、言語間ジェイルブレイクの背後にあるメカニズムを同定する。
論文 参考訳(メタデータ) (2025-05-22T21:54:46Z) - Investigating the Transferability of Code Repair for Low-Resource Programming Languages [57.62712191540067]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著なパフォーマンスを示している。
近年の作業は、連鎖推論や蒸留といった現代的な技術を統合することで、コード修復のプロセスを強化している。
高低資源言語と低低資源言語の両方でコード修復を蒸留する利点について検討する。
論文 参考訳(メタデータ) (2024-06-21T05:05:39Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Refining Low-Resource Unsupervised Translation by Language
Disentanglement of Multilingual Model [16.872474334479026]
本稿では,事前訓練された多言語UTTモデルから言語を切り離すための簡単な改良手法を提案する。
我々の手法は、ネパール語、シンハラ語、グジャラート語、ラトビア語、エストニア語、カザフ語への英語の完全な教師なし翻訳作業における芸術の状態を達成している。
論文 参考訳(メタデータ) (2022-05-31T05:14:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。