論文の概要: FENCE: A Financial and Multimodal Jailbreak Detection Dataset
- arxiv url: http://arxiv.org/abs/2602.18154v1
- Date: Fri, 20 Feb 2026 11:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.311003
- Title: FENCE: A Financial and Multimodal Jailbreak Detection Dataset
- Title(参考訳): FENCE: 金融とマルチモーダルのジェイルブレイク検出データセット
- Authors: Mirae Kim, Seonghun Jeong, Youngjun Kwak,
- Abstract要約: 金融アプリケーションにおけるジェイルブレイク検出のトレーニングと評価のためのマルチモーダルデータセットであるFENCEを提案する。
FENCEは、イメージグラウンドの脅威と組み合わせた金融関連クエリを通じて、ドメインリアリズムを強調している。
FENCEでトレーニングされたベースライン検出器は、分配精度99%を達成し、外部ベンチマークで高いパフォーマンスを維持する。
- 参考スコア(独自算出の注目度): 2.407927905799568
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Jailbreaking poses a significant risk to the deployment of Large Language Models (LLMs) and Vision Language Models (VLMs). VLMs are particularly vulnerable because they process both text and images, creating broader attack surfaces. However, available resources for jailbreak detection are scarce, particularly in finance. To address this gap, we present FENCE, a bilingual (Korean-English) multimodal dataset for training and evaluating jailbreak detectors in financial applications. FENCE emphasizes domain realism through finance-relevant queries paired with image-grounded threats. Experiments with commercial and open-source VLMs reveal consistent vulnerabilities, with GPT-4o showing measurable attack success rates and open-source models displaying greater exposure. A baseline detector trained on FENCE achieves 99 percent in-distribution accuracy and maintains strong performance on external benchmarks, underscoring the dataset's robustness for training reliable detection models. FENCE provides a focused resource for advancing multimodal jailbreak detection in finance and for supporting safer, more reliable AI systems in sensitive domains. Warning: This paper includes example data that may be offensive.
- Abstract(参考訳): 脱獄は、大規模言語モデル(LLM)とビジョン言語モデル(VLM)の展開に重大なリスクをもたらす。
VLMはテキストと画像の両方を処理し、より広い攻撃面を生成するため、特に脆弱である。
しかし、ジェイルブレイク検出の利用可能なリソースは、特に金融分野ではほとんどない。
このギャップに対処するため、金融アプリケーションにおけるジェイルブレイク検知器のトレーニングと評価のためのバイリンガル(韓国語-英語)マルチモーダルデータセットであるFENCEを提示する。
FENCEは、イメージグラウンドの脅威と組み合わせた金融関連クエリを通じて、ドメインリアリズムを強調している。
商用およびオープンソースのVLMを使った実験では、GPT-4oが測定可能なアタック成功率を示し、オープンソースモデルがより大きな露出を示すなど、一貫した脆弱性が明らかになった。
FENCEでトレーニングされたベースライン検出器は、99%の配布精度を達成し、外部ベンチマークでの強いパフォーマンスを維持し、信頼性のある検出モデルをトレーニングするためのデータセットの堅牢性を強調している。
FENCEは金融におけるマルチモーダルジェイルブレイク検出の進展と、機密ドメインにおけるより安全で信頼性の高いAIシステムのサポートに重点を置くリソースを提供する。
警告: 攻撃的かもしれないサンプルデータを含む。
関連論文リスト
- Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography [77.44136793431893]
本稿では,悪質なクエリを隠蔽して良質な画像に埋め込むために,二重ステガノグラフィーを導入した新しいjailbreakパラダイムを提案する。
我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムを脱獄し、最大99%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-12-23T08:53:36Z) - SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models [17.94525181892254]
大規模言語モデル(LLM)は、様々な分野にまたがるサービスによって、現実世界のアプリケーションにとって急速に不可欠なものになっている。
特にジェイルブレイクのプロンプトによって、モデルのアライメントを回避し、有害なアウトプットを誘導できる。
定義、脅威モデル、評価基準は様々であり、体系的な進歩と公正な比較を妨げる。
我々の研究は断片的な研究を統一し、将来の研究のための厳格な基盤を提供し、高度展開に適した堅牢で信頼性の高いLCMの開発を支援します。
論文 参考訳(メタデータ) (2025-10-17T09:38:54Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。