論文の概要: Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs
- arxiv url: http://arxiv.org/abs/2604.16659v1
- Date: Fri, 17 Apr 2026 19:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 14:22:57.699126
- Title: Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs
- Title(参考訳): オーディオLLMの安全アライメントを損なう良質なファインチューニング
- Authors: Jaechul Roh, Amir Houmansadr,
- Abstract要約: オーディオLLMにおける良質な微調整安全性に関する最初の体系的研究について述べる。
良質な微調整により、単一の桁から87.12%までのジェイルブレイク成功率(JSR)が上昇することを示す。
有害な埋め込みからの距離を最大化するためにトレーニングデータをフィルタリングすることと、推論時にテキストシステムにプロンプトする2つの防御法を提案する。
- 参考スコア(独自算出の注目度): 19.239722054750832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work shows that fine-tuning aligned models on benign data degrades safety in text and vision modalities, and that proximity to harmful content in representation space predicts which samples cause the most damage. However, existing analyses operate within a single, undifferentiated embedding space -- leaving open whether distinct input properties drive the vulnerability differently. Audio introduces a structurally richer problem: a benign sample can neighbor harmful content not only through what is said but through how it sounds, even when its words are entirely innocuous. We present the first systematic study of benign fine-tuning safety in Audio LLMs, evaluating three state-of-the-art models with a proximity-based filtering framework that selects benign audio by embedding-space distance to harmful content. By decomposing proximity into semantic, acoustic, and mixed axes using external reference encoders alongside each model's own internal encoder, we show that benign fine-tuning elevates Jailbreak Success Rate (JSR) from single digits to as high as 87.12%. Crucially, the dominant vulnerability axis and the relative risk of audio versus text fine-tuning are both architecture-conditioned -- determined by how each model's encoder and projector transform audio into the LLM's input space. We propose two defenses: filtering training data to maximize distance from harmful embeddings, and a textual system prompt at inference, both reducing JSR to near-zero without architectural modification. Our mechanistic analysis on two architectures reveals that fine-tuning selectively suppresses the late-layer refusal circuit while the frozen encoder preserves representations, and that even the suppression pattern is architecture-conditioned, mirroring the behavioral asymmetries across modalities. Safety degradation from benign fine-tuning is a qualitatively distinct risk in Audio LLMs.
- Abstract(参考訳): 先行研究では、良質なデータの微調整されたモデルは、テキストと視覚のモダリティの安全性を低下させ、表現空間における有害な内容に近づき、どのサンプルが最も損傷を与えるかを予測している。
しかし、既存の分析は単一の未分化の埋め込み空間内で動作し、異なる入力プロパティが脆弱性を異なる方向に駆動するかどうかを開いている。
音声は構造的によりリッチな問題をもたらす:良心的なサンプルは、その言葉が完全に無害である場合でも、その声だけでなく音の仕方を通じて有害なコンテンツを隣り合わせることができる。
本稿では, 近接フィルタリングフレームワークを用いて, 有害なコンテンツに空間距離を埋め込むことで良質な音声を選択する3つの最先端モデルの評価を行い, 良質な微調整安全性に関する最初の体系的研究を行った。
各モデルの内部エンコーダと並行して外部参照エンコーダを用いて, セマンティック, 音響, 混合軸に近接して分解することにより, 良質な微調整により単一桁から87.12%までのジェイルブレイク成功率(JSR)が上昇することを示す。
各モデルのエンコーダとプロジェクタがオーディオをLLMの入力空間に変換する方法によって決定される。
有害な埋め込みからの距離を最大化するためにトレーニングデータをフィルタリングし、推論時にテキストシステムに促すという2つの防御法を提案する。
2つのアーキテクチャの力学解析により, 冷凍エンコーダが表現を保ちながら, 微調整により遅延層遅延回路を選択的に抑制し, 抑制パターンさえもアーキテクチャに適合し, 挙動対称性を様々に反映していることが明らかとなった。
良性微調整による安全性の低下は、オーディオLLMの質的に異なるリスクである。
関連論文リスト
- Listen Like a Teacher: Mitigating Whisper Hallucinations using Adaptive Layer Attention and Knowledge Distillation [9.486565210140279]
Whisperモデルは、多言語およびゼロショット設定における強力なパフォーマンスのために広く採用されている。
ウィスパースタイルのASRシステムにおける幻覚を減らすための以前の研究は、主に誤ったコンテンツをフィルタリングするために、音声前処理や書き起こしの後処理に重点を置いていた。
本稿では,まずアダプティブ・レイヤ・アテンション(ALA)を用いてエンコーダのロバスト性を向上し,多目的知識蒸留(KD)フレームワークを用いた幻覚を抑制する2段階アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-11-18T07:52:47Z) - Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。
クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。
複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文 参考訳(メタデータ) (2025-10-12T09:05:28Z) - Dual Semantic-Aware Network for Noise Suppressed Ultrasound Video Segmentation [21.117226880898418]
超音波ビデオセグメンテーションにおける雑音の頑健性を高めるための新しいフレームワークを提案する。
Dual Semantic-Aware Network (DSANet)は、局所的特徴とグローバル的特徴の相互意味認識を促進する。
我々のモデルは画素レベルの特徴依存を回避し、ビデオベース手法よりもはるかに高い推論FPSを実現し、画像ベースモデルを超えている。
論文 参考訳(メタデータ) (2025-07-10T05:41:17Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR [35.710735895190844]
ノイズロスASRの歪みを低減した特徴レベルSEを実装するために,Wav2codeという自己教師型フレームワークを提案する。
そこで本研究では,入力ノイズ表現のグローバル依存性をモデル化し,クリーンなコードを正確に予測するトランスフォーマーベースのコード予測器を提案する。
合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-04-11T04:46:12Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。