論文の概要: Analyzing Reasoning Shifts in Audio Deepfake Detection under Adversarial Attacks: The Reasoning Tax versus Shield Bifurcation
- arxiv url: http://arxiv.org/abs/2601.03615v1
- Date: Wed, 07 Jan 2026 05:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.283676
- Title: Analyzing Reasoning Shifts in Audio Deepfake Detection under Adversarial Attacks: The Reasoning Tax versus Shield Bifurcation
- Title(参考訳): 敵対的攻撃による音声ディープフェイク検出における推論変化の分析--シールドバイフレーションに対する推論税-
- Authors: Binh Nguyen, Thai Le,
- Abstract要約: 我々は,新たなモデルロバストネス分析のクラス,すなわち敵攻撃時の予測的推論の堅牢性を導入する。
系統的な分析により,明示的推論は強靭性を普遍的に向上しないことが明らかとなった。
この研究は、法医学的なオーディオディープフェイク分析とその脆弱性における推論の役割を批判的に評価する。
- 参考スコア(独自算出の注目度): 12.776806641483866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio Language Models (ALMs) offer a promising shift towards explainable audio deepfake detections (ADDs), moving beyond \textit{black-box} classifiers by providing some level of transparency into their predictions via reasoning traces. This necessitates a new class of model robustness analysis: robustness of the predictive reasoning under adversarial attacks, which goes beyond existing paradigm that mainly focuses on the shifts of the final predictions (e.g., fake v.s. real). To analyze such reasoning shifts, we introduce a forensic auditing framework to evaluate the robustness of ALMs' reasoning under adversarial attacks in three inter-connected dimensions: acoustic perception, cognitive coherence, and cognitive dissonance. Our systematic analysis reveals that explicit reasoning does not universally enhance robustness. Instead, we observe a bifurcation: for models exhibiting robust acoustic perception, reasoning acts as a defensive \textit{``shield''}, protecting them from adversarial attacks. However, for others, it imposes a performance \textit{``tax''}, particularly under linguistic attacks which reduce cognitive coherence and increase attack success rate. Crucially, even when classification fails, high cognitive dissonance can serve as a \textit{silent alarm}, flagging potential manipulation. Overall, this work provides a critical evaluation of the role of reasoning in forensic audio deepfake analysis and its vulnerabilities.
- Abstract(参考訳): オーディオ言語モデル(ALM)は、説明可能なオーディオディープフェイク検出(ADD)への有望なシフトを提供する。
これは新たなモデル堅牢性分析のクラスを必要とする: 敵攻撃による予測的推論の堅牢性は、最終予測のシフト(例えば偽の対実)に主に焦点をあてる既存のパラダイムを越えている。
このような推論のシフトを分析するために、音響知覚、認知コヒーレンス、認知不協和の3つの分野において、敵対的攻撃下でのALMの推論の堅牢性を評価するための法医学的監査フレームワークを導入する。
系統的な分析により,明示的推論は強靭性を普遍的に向上しないことが明らかとなった。
頑健な音響知覚を示すモデルの場合、推論は防御的 \textit{``shield'' として機能し、敵の攻撃から保護する。
しかし、他の人にとっては、特に認知的コヒーレンスを減少させ、攻撃の成功率を増大させる言語攻撃において、パフォーマンスの「textit{``tax'」を課している。
重要なことに、たとえ分類が失敗したとしても、高い認知的不協和性は、潜在的な操作を警告する \textit{silent alarm} として機能する。
全体として、この研究は、法医学的なオーディオディープフェイク分析とその脆弱性における推論の役割を批判的に評価する。
関連論文リスト
- Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。
本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。
適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-04T20:25:12Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Exploiting Explainability to Design Adversarial Attacks and Evaluate
Attack Resilience in Hate-Speech Detection Models [0.47334880432883714]
本稿では,様々なヘイト音声検出モデルで表される対向的頑健性について分析する。
TextAttackツールを利用することで、テキストに対するターゲット攻撃を考案し、実行します。
この研究は、より堅牢で信頼性の高いヘイトスピーチ検出システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2023-05-29T19:59:40Z) - Adversarial Counterfactual Visual Explanations [0.7366405857677227]
本稿では,敵攻撃を意味論的に意味のある摂動に変換するエレガントな手法を提案する。
提案手法は,拡散確率モデルが高周波および分布外摂動を回避するための優れた正則化器であることを仮定する。
論文 参考訳(メタデータ) (2023-03-17T13:34:38Z) - Proper Network Interpretability Helps Adversarial Robustness in
Classification [91.39031895064223]
本稿では,解釈の適切な測定を行うことで,予測回避攻撃が解釈の不一致を引き起こすのを防ぐことは困難であることを示す。
我々は,頑健な解釈の促進にのみ焦点をあてて,解釈可能性に配慮した防御手法を開発した。
その結果,我々の防衛力は,強靭な分類と頑健な解釈の両方を達成し,大規模な摂動攻撃に対する最先端の対人訓練方法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-26T01:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。