Fugu-MT 論文翻訳(概要): FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs

論文の概要: FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs

arxiv url: http://arxiv.org/abs/2403.13507v2
Date: Thu, 21 Mar 2024 08:54:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 12:40:50.339775
Title: FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs
Title（参考訳）: FMM-Attack:ビデオベースのLLMにおけるフローベースのマルチモーダル・アタック
Authors: Jinmin Li, Kuofeng Gao, Yang Bai, Jingyun Zhang, Shu-tao Xia, Yisen Wang,
Abstract要約: 本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
参考スコア（独自算出の注目度）: 57.59518049930211
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable performance of video-based large language models (LLMs), their adversarial threat remains unexplored. To fill this gap, we propose the first adversarial attack tailored for video-based LLMs by crafting flow-based multi-modal adversarial perturbations on a small fraction of frames within a video, dubbed FMM-Attack. Extensive experiments show that our attack can effectively induce video-based LLMs to generate incorrect answers when videos are added with imperceptible adversarial perturbations. Intriguingly, our FMM-Attack can also induce garbling in the model output, prompting video-based LLMs to hallucinate. Overall, our observations inspire a further understanding of multi-modal robustness and safety-related feature alignment across different modalities, which is of great importance for various large multi-modal models. Our code is available at https://github.com/THU-Kingmin/FMM-Attack.
Abstract（参考訳）: ビデオベースの大規模言語モデル(LLM)の顕著な性能にもかかわらず、その敵対的脅威は未解明のままである。このギャップを埋めるために、FMM-Attackと呼ばれるビデオ内の少数のフレームにフローベースのマルチモーダルな摂動を組み込むことにより、ビデオベースのLDMに適した最初の逆襲攻撃を提案する。広汎な実験により,ビデオに知覚不能な逆方向の摂動を加えると,この攻撃はビデオベースのLCMを効果的に誘導し,誤答を生じさせることが示された。興味深いことに、我々のFMM-Attackはモデル出力を誘導し、ビデオベースのLCMを幻覚させる。全体として、我々の観察は、様々なモードにまたがるマルチモーダルロバストネスと安全関連特徴アライメントのさらなる理解を促し、これは様々な大規模マルチモーダルモデルにとって非常に重要である。私たちのコードはhttps://github.com/THU-Kingmin/FMM-Attack.comから入手可能です。

関連論文リスト

VidLBEval: Benchmarking and Mitigating Language Bias in Video-Involved LVLMs [37.52094200472755]
本稿では,既存のビデオ関連LVLMの言語バイアスから,ほとんど探索されていない問題を明らかにする。ビデオ関連LVLMの言語バイアスを評価するために,まずビデオ言語バイアス評価ベンチマークを収集する。また,言語バイアスに対処するため,Multi-branch Contrastive Decoding (MCD)を提案する。
論文参考訳（メタデータ） (2025-02-23T15:04:23Z)
`Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [6.151779089440453]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文参考訳（メタデータ） (2025-02-02T10:05:08Z)
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。 InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-01-21T18:59:00Z)
Image-based Multimodal Models as Intruders: Transferable Multimodal Attacks on Video-based MLLMs [48.76864299749205]
ビデオベースの大規模言語モデル(V-MLLM)は、ビデオテキストマルチモーダルタスクにおける逆例の脆弱性を示す。本稿では,V-MLLM間の対向映像の転送可能性について検討する。
論文参考訳（メタデータ） (2025-01-02T03:52:22Z)
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。最小限の設計により,本手法はビデオと画像の両方に応用できる。同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文参考訳（メタデータ） (2024-12-04T11:47:57Z)
On Learning Multi-Modal Forgery Representation for Diffusion Generated Video Detection [44.55891118519547]
本稿では,拡散生成コンテンツを検出するためのMulti-Mod-al Detection(MM-Det)という革新的なアルゴリズムを提案する。 MM-Detは、Multi-Modal Forgery Representation(MMFR)を生成することで、LMM(Large Multi-Modal Models)の深い総合的能力を利用する MM-Detによるビデオフォサイシクス(DVF)の最先端性能の実現
論文参考訳（メタデータ） (2024-10-31T04:20:47Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。 LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文参考訳（メタデータ） (2024-07-10T06:57:58Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-03-25T17:59:09Z)
TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文参考訳（メタデータ） (2024-03-01T12:02:19Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文参考訳（メタデータ） (2023-05-22T17:51:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。