論文の概要: Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time
- arxiv url: http://arxiv.org/abs/2509.12521v1
- Date: Mon, 15 Sep 2025 23:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.813095
- Title: Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time
- Title(参考訳): Phi: マルチモーダル大規模言語モデルにおける推論時の優先的ハイジャック
- Authors: Yifan Lan, Yuanpu Cao, Weitong Zhang, Lu Lin, Jinghui Chen,
- Abstract要約: 本稿では,優先ハイジャック画像を用いたMLLM応答嗜好を操作する新しい手法を提案する。
我々の手法は推論時に機能し、モデル修正は不要である。
様々なタスクにまたがる実験結果から,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 39.97820478987012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Multimodal Large Language Models (MLLMs) have gained significant attention across various domains. However, their widespread adoption has also raised serious safety concerns. In this paper, we uncover a new safety risk of MLLMs: the output preference of MLLMs can be arbitrarily manipulated by carefully optimized images. Such attacks often generate contextually relevant yet biased responses that are neither overtly harmful nor unethical, making them difficult to detect. Specifically, we introduce a novel method, Preference Hijacking (Phi), for manipulating the MLLM response preferences using a preference hijacked image. Our method works at inference time and requires no model modifications. Additionally, we introduce a universal hijacking perturbation -- a transferable component that can be embedded into different images to hijack MLLM responses toward any attacker-specified preferences. Experimental results across various tasks demonstrate the effectiveness of our approach. The code for Phi is accessible at https://github.com/Yifan-Lan/Phi.
- Abstract(参考訳): 近年,MLLM (Multimodal Large Language Models) が様々な領域で注目されている。
しかし、その普及により、深刻な安全上の懸念がもたらされた。
本稿では,MLLMの出力嗜好を慎重に最適化した画像で任意に操作できるという,MLLMの新たな安全性リスクを明らかにする。
このような攻撃は、しばしば文脈的に関連があるが、過度に有害でも非倫理的でもない偏見のある反応を生じさせ、検出が困難になる。
具体的には、優先ハイジャック画像を用いてMLLM応答嗜好を操作するための新しい方法であるPreference Hijacking(Phi)を紹介する。
我々の手法は推論時に機能し、モデル修正は不要である。
さらに、さまざまなイメージに組み込むことで、攻撃者が指定した任意の好みに対してMLLM応答をハイジャックする、転送可能なコンポーネントであるユニバーサルハイジャック摂動を導入する。
様々なタスクにまたがる実験結果から,本手法の有効性が示された。
Phiのコードはhttps://github.com/Yifan-Lan/Phiでアクセスできる。
関連論文リスト
- JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。
JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文 参考訳(メタデータ) (2025-08-07T07:14:01Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Refusing Safe Prompts for Multi-modal Large Language Models [36.276781604895454]
安全プロンプトに対する拒絶を誘導する最初の手法であるMLLM-Refusalを紹介する。
本稿では,MLLM-Refusalを制約付き最適化問題として定式化し,その解法を提案する。
4つのデータセットにわたる4つのMLLMに対してMLLM-Refusalを評価する。
論文 参考訳(メタデータ) (2024-07-12T07:18:05Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z) - MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [36.03512474289962]
本稿では,視覚入力による悪意ある攻撃に対してMLLMを防御する新たな課題について検討する。
画像は、安全アライメントの間に考慮されていない「外国語として機能する」ため、MLLMは有害な反応を生じやすい。
MLLM-Protectorは,1)軽量害検知器による有害応答の同定,2)除毒器による有害応答の無害化という2つのサブタスクを解決するためのプラグアンドプレイ戦略である。
論文 参考訳(メタデータ) (2024-01-05T17:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。