論文の概要: Poisoning Prompt-Guided Sampling in Video Large Language Models
- arxiv url: http://arxiv.org/abs/2509.20851v1
- Date: Thu, 25 Sep 2025 07:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.760545
- Title: Poisoning Prompt-Guided Sampling in Video Large Language Models
- Title(参考訳): ビデオ大言語モデルにおけるプロンプト誘導サンプリング
- Authors: Yuxin Cao, Wei Song, Jingling Xue, Jin Song Dong,
- Abstract要約: 我々は,ビデオLLMの即時サンプリングを阻害する最初のブラックボックス中毒発作であるPoisonVIDを提示する。
PoisonVIDは、クローズドループ最適化戦略を通じて、基礎となるプロンプト誘導サンプリング機構を妥協する。
攻撃成功率は82% - 99%であり、ビデオLLMの将来の高度なサンプリング戦略を開発することの重要性を強調している。
- 参考スコア(独自算出の注目度): 19.81998459094009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (VideoLLMs) have emerged as powerful tools for understanding videos, supporting tasks such as summarization, captioning, and question answering. Their performance has been driven by advances in frame sampling, progressing from uniform-based to semantic-similarity-based and, most recently, prompt-guided strategies. While vulnerabilities have been identified in earlier sampling strategies, the safety of prompt-guided sampling remains unexplored. We close this gap by presenting PoisonVID, the first black-box poisoning attack that undermines prompt-guided sampling in VideoLLMs. PoisonVID compromises the underlying prompt-guided sampling mechanism through a closed-loop optimization strategy that iteratively optimizes a universal perturbation to suppress harmful frame relevance scores, guided by a depiction set constructed from paraphrased harmful descriptions leveraging a shadow VideoLLM and a lightweight language model, i.e., GPT-4o-mini. Comprehensively evaluated on three prompt-guided sampling strategies and across three advanced VideoLLMs, PoisonVID achieves 82% - 99% attack success rate, highlighting the importance of developing future advanced sampling strategies for VideoLLMs.
- Abstract(参考訳): Video Large Language Models (VideoLLMs) は、ビデオの理解、要約、キャプション、質問応答などのタスクをサポートする強力なツールとして登場した。
彼らのパフォーマンスは、フレームサンプリングの進歩、一様ベースから意味相似性ベース、そして最近ではプロンプト誘導型戦略によって推進されている。
以前のサンプリング戦略では脆弱性が特定されているが、プロンプト誘導サンプリングの安全性は未解明のままである。
われわれはこのギャップを埋めるために、ビデオLLMの最初のブラックボックス中毒攻撃であるPoisonVIDを提示した。
PoisonVIDは、シャドウビデオLLMと軽量言語モデル(GPT-4o-mini)を活用したパラフレーズ付き有害な記述から構築された描写によって導かれる有害なフレーム関連スコアを抑えるために、普遍的な摂動を反復的に最適化する閉ループ最適化戦略を通じて、基礎となるプロンプト誘導サンプリング機構を妥協する。
PoisonVIDは3つのプロンプト誘導型サンプリング戦略と3つの先進的なビデオLLMに対して、攻撃成功率82%から99%を達成し、将来のビデオLLMのための先進的なサンプリング戦略を開発することの重要性を強調した。
関連論文リスト
- MIRAGE: Misleading Retrieval-Augmented Generation via Black-box and Query-agnostic Poisoning Attacks [47.46936341268548]
Retrieval-Augmented Generation (RAG)システムでは、コーパス中毒という致命的な攻撃面が導入されている。
我々は,厳格なブラックボックスとクエリ非依存環境のために設計された,新しい多段階毒素パイプラインであるMIRAGEを提案する。
大規模な実験により、MIRAGEは攻撃効果とステルスネスの両方において既存のベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-12-09T06:38:16Z) - Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling [82.52485740425321]
アドリアックは、ディープニューラルネットワークの堅牢性にとって重要な課題である。
敵攻撃の伝達性は、爆発(最大攻撃能力)と探索(クロスモデル一般化の促進)のジレンマに直面している
論文 参考訳(メタデータ) (2025-11-01T05:43:47Z) - Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction [51.50282796099369]
本稿では,多次元命令の不確実性低減フレームワークを開発し,意味論的に制約された逆の例を生成する。
言語誘導サンプリングプロセスの予測により、設計したResAdv-DDIMサンプルにより最適化プロセスが安定化される。
セマンティック制約付き3次元逆数例の参照フリー生成を初めて実現した。
論文 参考訳(メタデータ) (2025-10-27T04:02:52Z) - Sequential Comics for Jailbreaking Multimodal Large Language Models via Structured Visual Storytelling [11.939828002077482]
MLLM(Multimodal large language model)は、優れた能力を示すが、ジェイルブレイク攻撃の影響を受けない。
本研究では,最新のMLLMにおける安全アライメントを回避するために,連続的な漫画スタイルの視覚的物語を活用する新しい手法を提案する。
攻撃成功率は平均83.5%であり, 先行技術の46%を突破した。
論文 参考訳(メタデータ) (2025-10-16T18:30:26Z) - Watch, Listen, Understand, Mislead: Tri-modal Adversarial Attacks on Short Videos for Content Appropriateness Evaluation [1.0012740151280692]
本稿では,マルチモーダル大言語モデル(MLLM)の3次元安全性を評価するためのフレームワークを提案する。
本稿では,ヒト誘導型合成対向攻撃を用いたショートビデオ・マルチモーダル対向データセットを提案する。
最先端MLLMの大規模な実験により、攻撃成功率(ASR)の高い重大な脆弱性が明らかになった。
論文 参考訳(メタデータ) (2025-07-16T07:02:15Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates [37.65554922794508]
偽テキストのサンプルを生成するために、MAC(Multimodal Adversarial Compositionality)を導入する。
我々は、サンプルワイド攻撃の成功率とグループワイドエントロピーに基づく多様性を両立させて評価した。
Llama-3.1-8Bのようなより小さな言語モデルを用いて、我々の手法は構成上の脆弱性を明らかにする上で優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-28T23:45:55Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in
Language Models [4.776465250559034]
ブラックボックスシナリオにおける手動テンプレートに対するプロンプトベースの逆攻撃を提案する。
まず,手動テンプレートを個別に分割するための文字レベルと単語レベルのアプローチを設計する。
そして、上記の破壊的アプローチに基づく攻撃に対する欲求的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:53:42Z) - Frauds Bargain Attack: Generating Adversarial Text Samples via Word
Manipulation Process [9.269657271777527]
本研究では,Fraud's Bargain Attackと呼ばれる新たな手法を提案する。
ランダム化機構を用いて探索空間を拡張し、高品質な敵の例を生成する。
成功率、不受容性、文質の点で他の方法よりも優れています。
論文 参考訳(メタデータ) (2023-03-01T06:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。