論文の概要: SARSteer: Safeguarding Large Audio Language Models via Safe-Ablated Refusal Steering
- arxiv url: http://arxiv.org/abs/2510.17633v1
- Date: Mon, 20 Oct 2025 15:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.496599
- Title: SARSteer: Safeguarding Large Audio Language Models via Safe-Ablated Refusal Steering
- Title(参考訳): SARSteer: 安全な拒否ステアリングによる大規模オーディオモデルの保護
- Authors: Weilin Lin, Jianze Li, Hui Xiong, Li Liu,
- Abstract要約: 音声入力は、テキストよりも有害な応答を容易に引き出すことができる。
LALMの最初の推論時防衛フレームワークである Safe-Ablated Refusal Steering (SARSteer) を提案する。
- 参考スコア(独自算出の注目度): 22.462892823842115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio-Language Models (LALMs) are becoming essential as a powerful multimodal backbone for real-world applications. However, recent studies show that audio inputs can more easily elicit harmful responses than text, exposing new risks toward deployment. While safety alignment has made initial advances in LLMs and Large Vision-Language Models (LVLMs), we find that vanilla adaptation of these approaches to LALMs faces two key limitations: 1) LLM-based steering fails under audio input due to the large distributional gap between activations, and 2) prompt-based defenses induce over-refusals on benign-speech queries. To address these challenges, we propose Safe-Ablated Refusal Steering (SARSteer), the first inference-time defense framework for LALMs. Specifically, SARSteer leverages text-derived refusal steering to enforce rejection without manipulating audio inputs and introduces decomposed safe-space ablation to mitigate over-refusal. Extensive experiments demonstrate that SARSteer significantly improves harmful-query refusal while preserving benign responses, establishing a principled step toward safety alignment in LALMs.
- Abstract(参考訳): 大規模オーディオ言語モデル(LALM)は、現実世界のアプリケーションにとって強力なマルチモーダルバックボーンとして欠かせないものとなっている。
しかし、近年の研究では、音声入力はテキストよりも有害な応答を誘発しやすく、デプロイに対する新たなリスクを明らかにすることが示されている。
LLM(Large Vision-Language Models)とLVLM(Large Vision-Language Models)では、安全性アライメントが最初の進歩を遂げているが、これらのアプローチのLALMへのバニラ適応には2つの重要な制限がある。
1)LDMベースのステアリングは、アクティベーション間の大きな分散ギャップにより、オーディオ入力時に失敗する
2) 即時防御は良質な音声クエリに対する過剰な拒絶を誘発する。
これらの課題に対処するために, LALM の最初の推論時防衛フレームワークである Safe-Ablated Refusal Steering (SARSteer) を提案する。
具体的には、SARSteerはテキスト由来の拒絶操作を利用して音声入力を操作することなく拒絶を強制し、過度な拒絶を緩和するために分解された安全な空間アブレーションを導入する。
広範囲な実験により,SARSteerは良性応答を保ちながら有害なクエリの拒絶を著しく改善し,LALMの安全性向上に向けた原則的なステップを確立した。
関連論文リスト
- Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations [94.62792643569567]
この研究は、話者の感情の役割を体系的に調査する。
複数の感情や強度にまたがって表現される悪意のある音声命令のデータセットを構築し、いくつかの最先端のLALMを評価する。
異なる感情は、様々なレベルの安全でない反応を誘発し、強度の影響は非単調であり、中性表現は最大のリスクを伴うことが多い。
論文 参考訳(メタデータ) (2025-10-19T15:41:25Z) - When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。
近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文 参考訳(メタデータ) (2025-05-26T08:25:25Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。