論文の概要: Failures to Surface Harmful Contents in Video Large Language Models
- arxiv url: http://arxiv.org/abs/2508.10974v1
- Date: Thu, 14 Aug 2025 17:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.625843
- Title: Failures to Surface Harmful Contents in Video Large Language Models
- Title(参考訳): ビデオ大言語モデルにおける表面の有害な内容の失敗
- Authors: Yuxin Cao, Wei Song, Derui Wang, Jingling Xue, Jin Song Dong,
- Abstract要約: Video Large Language Models (VideoLLMs) はますます多くの重要なアプリケーションにデプロイされている。
ビデオに有害なコンテンツが埋め込まれている場合、ビデオLLMは出力中の有害なコンテンツにほとんど言及しない。
根本原因分析の結果、3つの複合設計上の欠陥が明らかになった。
- 参考スコア(独自算出の注目度): 12.841793719841524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (VideoLLMs) are increasingly deployed on numerous critical applications, where users rely on auto-generated summaries while casually skimming the video stream. We show that this interaction hides a critical safety gap: if harmful content is embedded in a video, either as full-frame inserts or as small corner patches, state-of-the-art VideoLLMs rarely mention the harmful content in the output, despite its clear visibility to human viewers. A root-cause analysis reveals three compounding design flaws: (1) insufficient temporal coverage resulting from the sparse, uniformly spaced frame sampling used by most leading VideoLLMs, (2) spatial information loss introduced by aggressive token downsampling within sampled frames, and (3) encoder-decoder disconnection, whereby visual cues are only weakly utilized during text generation. Leveraging these insights, we craft three zero-query black-box attacks, aligning with these flaws in the processing pipeline. Our large-scale evaluation across five leading VideoLLMs shows that the harmfulness omission rate exceeds 90% in most cases. Even when harmful content is clearly present in all frames, these models consistently fail to identify it. These results underscore a fundamental vulnerability in current VideoLLMs' designs and highlight the urgent need for sampling strategies, token compression, and decoding mechanisms that guarantee semantic coverage rather than speed alone.
- Abstract(参考訳): Video Large Language Models (VideoLLMs) は、ビデオストリームをさりげなくスキップしながら自動生成された要約に依存する、多くの重要なアプリケーションにますますデプロイされている。
ビデオに有害なコンテンツが埋め込まれている場合、フルフレームの挿入や小さなコーナーのパッチとして、最先端のVideoLLMでは、人間の視聴者に明らかな可視性があるにも関わらず、出力中の有害なコンテンツに言及することがほとんどありません。
根本原因分析では,(1)ビデオLLMで使用されるスパース,一様間隔のフレームサンプリングによる時間的カバー不足,(2)サンプルフレーム内でのアグレッシブトークンダウンサンプリングによる空間情報損失,(3)エンコーダとデコーダの切断,という3つの複合的な設計上の欠陥が明らかになった。
これらの洞察を活用して、処理パイプラインのこれらの欠陥と整合して、3つのゼロクエリブラックボックスアタックを作成します。
ビデオLLMを5つに分けた大規模評価の結果,ほとんどの症例において有害脱落率は90%以上であることがわかった。
有害なコンテンツがすべてのフレームにはっきりと存在しているとしても、これらのモデルは常にそれを識別できない。
これらの結果は、現在のVideoLLMsの設計における根本的な脆弱性を強調し、速度のみでなくセマンティックカバレッジを保証するサンプリング戦略、トークン圧縮、デコードメカニズムの緊急的な必要性を強調している。
関連論文リスト
- Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - M3-CVC: Controllable Video Compression with Multimodal Generative Models [17.49397141459785]
M3-CVCは、生成モデルを組み込んだ制御可能なビデオ圧縮フレームワークである。
以上の結果から,M3-CVCは超低シナリオにおいて最先端のVVCを著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-24T11:56:59Z) - Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models [41.12711820047315]
ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。
本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T14:54:30Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Adversarially Robust Frame Sampling with Bounded Irregularities [11.434633941880143]
ビデオから意味のある情報を自動抽出するビデオ解析ツールが広く研究され、デプロイされている。
多くは計算コストのかかるディープニューラルネットワークを使用しており、そのようなアルゴリズムにビデオフレームのサブセットだけを投入することが望ましい。
このサンプリング問題に対するエレガントな解法は、敵攻撃に対して確実に堅牢であり、また有界な不規則性も導入する。
論文 参考訳(メタデータ) (2020-02-04T06:33:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。