論文の概要: SALLIE: Safeguarding Against Latent Language & Image Exploits
- arxiv url: http://arxiv.org/abs/2604.06247v1
- Date: Mon, 06 Apr 2026 16:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.113262
- Title: SALLIE: Safeguarding Against Latent Language & Image Exploits
- Title(参考訳): SALLIE: 潜在言語と画像流出に対する保護
- Authors: Guy Azov, Ofer Rivlin, Guy Shtar,
- Abstract要約: 本稿では,機械的解釈可能性に根ざした軽量ランタイム検出フレームワークであるSALLIEを紹介する。
SALLIEはモデルの内部アクティベーションから直接堅牢な信号を抽出する。
推測すると、SALLIEは3段階アーキテクチャで防御する。
- 参考スコア(独自算出の注目度): 1.6440434996206623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) and Vision-Language Models (VLMs) remain highly vulnerable to textual and visual jailbreaks, as well as prompt injections (arXiv:2307.15043, Greshake et al., 2023, arXiv:2306.13213). Existing defenses often degrade performance through complex input transformations or treat multimodal threats as isolated problems (arXiv:2309.00614, arXiv:2310.03684, Zhang et al., 2025). To address the critical gap for a unified, modal-agnostic defense that mitigates both textual and visual threats simultaneously without degrading performance or requiring architectural modifications, we introduce SALLIE (Safeguarding Against Latent Language & Image Exploits), a lightweight runtime detection framework rooted in mechanistic interpretability (Lindsey et al., 2025, Ameisen et al., 2025). By integrating seamlessly into standard token-level fusion pipelines (arXiv:2306.13549), SALLIE extracts robust signals directly from the model's internal activations. At inference, SALLIE defends via a three-stage architecture: (1) extracting internal residual stream activations, (2) calculating layer-wise maliciousness scores using a K-Nearest Neighbors (k-NN) classifier, and (3) aggregating these predictions via a layer ensemble module. We evaluate SALLIE on compact, open-source architectures - Phi-3.5-vision-instruct (arXiv:2404.14219), SmolVLM2-2.2B-Instruct (arXiv:2504.05299), and gemma-3-4b-it (arXiv:2503.19786) - prioritized for practical inference times and real-world deployment costs. Our comprehensive evaluation pipeline spans over ten datasets and more than five strong baseline methods from the literature, and SALLIE consistently outperforms these baselines across a wide range of experimental settings.
- Abstract(参考訳): 大規模言語モデル(LLMs)と視覚言語モデル(VLMs)は、テキストや視覚的ジェイルブレイクや、迅速な注入(arXiv:2307.15043, Greshake et al , 2023, arXiv:2306.13213)に対して非常に脆弱である。
既存の防御は、複雑な入力変換を通じて性能を低下させたり、マルチモーダル脅威を独立した問題として扱う(arXiv:2309.00614, arXiv:2310.03684, Zhang et al , 2025)。
SALLIE (Safeguarding Against Latent Language & Image Exploits, Lindsey et al , 2025, Ameisen et al , 2025)を紹介する。
標準的なトークンレベルの融合パイプライン(arXiv:2306.13549)にシームレスに統合することで、SALLIEはモデルの内部アクティベーションから直接堅牢な信号を抽出する。
SALLIEは,(1)内部残差ストリームのアクティベーションの抽出,(2)K-Nearest Neighbors(k-NN)分類器を用いた層次悪質度スコアの算出,(3)レイヤアンサンブルモジュールによるこれらの予測の集約,という3段階のアーキテクチャを通じて防御を行う。
我々は,Phi-3.5-vision-instruct (arXiv:2404.14219), SmolVLM2-2.2B-Instruct (arXiv:2504.05299), gemma-3-4b-it (arXiv:2503.19786) のコンパクトなオープンソースアーキテクチャ上でSALLIEを評価する。
包括的な評価パイプラインは、文献から10以上のデータセットと5以上の強力なベースラインメソッドにまたがっており、SALLIEは、幅広い実験環境において、これらのベースラインを一貫して上回ります。
関連論文リスト
- Structured Intent as a Protocol-Like Communication Layer: Cross-Model Robustness, Framework Comparison, and the Weak-Model Compensation Effect [0.0]
本稿では、AIモデル、言語、プロンプトフレームワーク間で、確実に構造化された意図表現がいかにユーザ目標を保っているかを検討する。
構造的プロンプトは、非構造的ベースラインに対する言語間スコアのばらつきを著しく低減する。
ユーザ調査では、AIが拡張した5W3Hは、インタラクションラウンドを60%削減し、ユーザの満足度を3.16から4.04に向上させる。
論文 参考訳(メタデータ) (2026-03-31T16:20:28Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。
既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。
動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:41:41Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Cracking IoT Security: Can LLMs Outsmart Static Analysis Tools? [1.8549313085249322]
本研究は,多カテゴリー間相互作用脅威分類におけるLarge Language Models (LLMs) の総合評価を初めて行った。
Llama 3.1 8B, Llama 70B, GPT-4o, Gemini-2.5-Pro, DeepSeek-R1を0, 1, 2ショット設定でベンチマークする。
以上の結果から, LLMは有望な意味理解を示すが, 相互構造的推論を必要とする脅威に対して, 精度は著しく低下することがわかった。
論文 参考訳(メタデータ) (2026-01-02T04:17:36Z) - RHINO: Guided Reasoning for Mapping Network Logs to Adversarial Tactics and Techniques with Large Language Models [9.065322387043546]
人間の推論を反映した3つの解釈可能なフェーズに大言語モデルを分解するフレームワークであるRHINOを紹介する。
RHINOは、構造的推論による出力信頼性を改善しながら、低レベルの観測と反対方向のセマンティックギャップを橋渡しする。
以上の結果から,RHINOは脅威解析の解釈可能性やスケーラビリティを著しく向上させ,LLMを運用上のセキュリティ設定にデプロイするための青写真を提供することが示された。
論文 参考訳(メタデータ) (2025-10-16T02:25:46Z) - Vision Language Models: A Survey of 26K Papers [0.20305676256390928]
CVPR, ICLR, NeurIPSが2023~2025年に発行した論文26,104件を対象に, 透明かつ再現可能な研究動向の測定を行った。
タイトルと要約は正規化され、フレーズで保護され、手作りのレキシコンと一致し、最大35のトピックラベルが割り当てられる。
分析では,(1)指示と多段階推論として古典的認識を再構築する多モーダル視覚言語・LLM作品の急激な増加,(2)制御性,蒸留性,速度を中心とした拡散研究による生成手法の着実に拡張,(3)レジリエント3Dの3つのマクロシフトを定量化する。
論文 参考訳(メタデータ) (2025-10-10T17:43:17Z) - SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models [73.19077622773075]
本稿では,空間知能を段階的に構築するための包括的方法論を提案する。
オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。
本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-09T17:50:54Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。