論文の概要: FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs
- arxiv url: http://arxiv.org/abs/2403.13507v2
- Date: Thu, 21 Mar 2024 08:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 12:40:50.339775
- Title: FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs
- Title(参考訳): FMM-Attack:ビデオベースのLLMにおけるフローベースのマルチモーダル・アタック
- Authors: Jinmin Li, Kuofeng Gao, Yang Bai, Jingyun Zhang, Shu-tao Xia, Yisen Wang,
- Abstract要約: 本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。
我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。
我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
- 参考スコア(独自算出の注目度): 57.59518049930211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable performance of video-based large language models (LLMs), their adversarial threat remains unexplored. To fill this gap, we propose the first adversarial attack tailored for video-based LLMs by crafting flow-based multi-modal adversarial perturbations on a small fraction of frames within a video, dubbed FMM-Attack. Extensive experiments show that our attack can effectively induce video-based LLMs to generate incorrect answers when videos are added with imperceptible adversarial perturbations. Intriguingly, our FMM-Attack can also induce garbling in the model output, prompting video-based LLMs to hallucinate. Overall, our observations inspire a further understanding of multi-modal robustness and safety-related feature alignment across different modalities, which is of great importance for various large multi-modal models. Our code is available at https://github.com/THU-Kingmin/FMM-Attack.
- Abstract(参考訳): ビデオベースの大規模言語モデル(LLM)の顕著な性能にもかかわらず、その敵対的脅威は未解明のままである。
このギャップを埋めるために、FMM-Attackと呼ばれるビデオ内の少数のフレームにフローベースのマルチモーダルな摂動を組み込むことにより、ビデオベースのLDMに適した最初の逆襲攻撃を提案する。
広汎な実験により,ビデオに知覚不能な逆方向の摂動を加えると,この攻撃はビデオベースのLCMを効果的に誘導し,誤答を生じさせることが示された。
興味深いことに、我々のFMM-Attackはモデル出力を誘導し、ビデオベースのLCMを幻覚させる。
全体として、我々の観察は、様々なモードにまたがるマルチモーダルロバストネスと安全関連特徴アライメントのさらなる理解を促し、これは様々な大規模マルチモーダルモデルにとって非常に重要である。
私たちのコードはhttps://github.com/THU-Kingmin/FMM-Attack.comから入手可能です。
関連論文リスト
- `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [6.151779089440453]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文 参考訳(メタデータ) (2025-02-02T10:05:08Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - Image-based Multimodal Models as Intruders: Transferable Multimodal Attacks on Video-based MLLMs [48.76864299749205]
ビデオベースの大規模言語モデル(V-MLLM)は、ビデオテキストマルチモーダルタスクにおける逆例の脆弱性を示す。
本稿では,V-MLLM間の対向映像の転送可能性について検討する。
論文 参考訳(メタデータ) (2025-01-02T03:52:22Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。
本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。
得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-25T17:59:09Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。