論文の概要: Subliminal Corruption: Mechanisms, Thresholds, and Interpretability
- arxiv url: http://arxiv.org/abs/2510.19152v1
- Date: Wed, 22 Oct 2025 00:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.836203
- Title: Subliminal Corruption: Mechanisms, Thresholds, and Interpretability
- Title(参考訳): サブリミナル破壊:メカニズム、閾値、解釈可能性
- Authors: Reya Vir, Sarvesh Bhatnagar,
- Abstract要約: サブリミナルな腐敗は、標準的な安全チェックをバイパスして意味論的に中立なデータを通じて伝達される。
本稿では, GPT-2 を用いた教師学生によるサブリミナル汚職のスケーリング法則, しきい値, メカニズムを体系的に検討する。
結果は、合成データに依存し、新しい安全プロトコルの必要性を強調するAIシステムにおいて、重大な脆弱性を示す。
- 参考スコア(独自算出の注目度): 0.6875312133832079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As machine learning models are increasingly fine-tuned on synthetic data, there is a critical risk of subtle misalignments spreading through interconnected AI systems. This paper investigates subliminal corruption, which we define as undesirable traits are transmitted through semantically neutral data, bypassing standard safety checks. While this phenomenon has been identified, a quantitative understanding of its dynamics is missing. To address this gap, we present a systematic study of the scaling laws, thresholds, and mechanisms of subliminal corruption using a teacher-student setup with GPT-2. Our experiments reveal three key findings: (1) subliminal corruption causes behavioral crossover, degrading the model's overall alignment, not just the targeted trait; (2) alignment fails in a sharp phase transition at a critical threshold of poisoned data, rather than degrading gradually; and (3) interpretability analysis shows the corruption mechanism mimics the model's natural fine-tuning process, making it difficult to detect. These results demonstrate a critical vulnerability in AI systems that rely on synthetic data and highlight the need for new safety protocols that can account for latent threats.
- Abstract(参考訳): 機械学習モデルは、合成データに基づいて微調整される傾向にあるため、相互接続されたAIシステムを通じて微妙なミスアライメントが拡散する危険がある。
本稿では,意味論的に中立なデータを通じて伝達され,標準的な安全性チェックを回避し,望ましくない特性を伝達するサブリミナル汚職について検討する。
この現象は特定されているが、その力学の定量的理解は欠如している。
このギャップに対処するために,GPT-2を用いた教師学生設定を用いたサブリミナル汚職のスケーリング法則,しきい値,メカニズムを体系的に検討した。
実験の結果,(1)サブリミナルな腐敗はモデル全体のアライメントを低下させるだけでなく,モデル全体のアライメントを低下させる,(2)徐々に劣化するのではなく,有毒データの臨界しきい値の急激な位相遷移でアライメントが失敗する,(3)解釈可能性解析により,モデルの自然な微調整過程を模倣し,検出が困難になる,という3つの重要な結果が得られた。
これらの結果は、合成データに依存するAIシステムにおいて重大な脆弱性を示し、潜伏する脅威を考慮に入れ得る新しい安全プロトコルの必要性を強調している。
関連論文リスト
- DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - CleverCatch: A Knowledge-Guided Weak Supervision Model for Fraud Detection [0.36944296923226316]
CleverCatchは、不正な処方の振る舞いを検出するために設計された知識誘導弱監視モデルである。
このアプローチでは、構造化ドメインの専門知識をニューラルネットワークに統合し、共有埋め込みスペース内のルールとデータサンプルを調整する。
大規模な実世界のデータセットの実験では、CleverCatchは4つの最先端の異常検出ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-15T06:49:31Z) - Understanding Catastrophic Interference: On the Identifibility of Latent Representations [67.05452287233122]
破滅的な干渉、あるいは破滅的な忘れ(Caastrophic forgetting)は、機械学習の根本的な課題である。
本稿では,破滅的干渉を識別問題として定式化する新しい理論枠組みを提案する。
我々のアプローチは、合成データセットとベンチマークデータセットの両方で理論的保証と実用的なパフォーマンスの改善を提供する。
論文 参考訳(メタデータ) (2025-09-27T00:53:32Z) - Mutual Information Tracks Policy Coherence in Reinforcement Learning [0.0]
強化学習(RL)エージェントは、センサの故障、アクチュエータの摩耗、環境変化による劣化に直面している。
本稿では,RLの基本動力学を両立させる情報理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-12T17:24:20Z) - Deep Learning Models for Robust Facial Liveness Detection [56.08694048252482]
本研究では,現代のアンチスプーフィング手法の欠陥に対処する新しい深層学習モデルを用いて,ロバストな解を提案する。
テクスチャ解析と実際の人間の特性に関連する反射特性を革新的に統合することにより、我々のモデルは、顕著な精度でレプリカと真の存在を区別する。
論文 参考訳(メタデータ) (2025-08-12T17:19:20Z) - Unmasking Synthetic Realities in Generative AI: A Comprehensive Review of Adversarially Robust Deepfake Detection Systems [4.359154048799454]
ディープフェイク拡散合成メディアは、デジタルセキュリティ、誤情報緩和、アイデンティティ保護に挑戦する。
本研究の体系的レビューでは, 再現性のある実装の透明性と検証を重視した, 最先端のディープフェイク検出手法の評価を行う。
1) 統計的異常や階層的特徴抽出を利用した完全合成メディアの検出,(2) 視覚的アーティファクトや時間的不整合といったマルチモーダルな手がかりを用いた実コンテンツ中の操作された領域の局在化。
論文 参考訳(メタデータ) (2025-07-24T22:05:52Z) - SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors [2.07180164747172]
原子力や航空などのリスクの高い産業は、危険なシステム状態を検出するためにリアルタイムモニタリングを使用している。
教師なしアプローチを用いることで、有害なAI出力が発生する前に予測するリアルタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T12:49:58Z) - Ensuring Medical AI Safety: Interpretability-Driven Detection and Mitigation of Spurious Model Behavior and Associated Data [14.991686165405959]
2つのモダリティにまたがる4つの医療データセットを用いて,フレームワークの適用性を示す。
VGG16, ResNet50, および同時代のVision Transformerモデルにおいて, これらのバイアスを特定し, 解放することに成功した。
論文 参考訳(メタデータ) (2025-01-23T16:39:09Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。