Fugu-MT 論文翻訳(概要): VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

論文の概要: VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

arxiv url: http://arxiv.org/abs/2603.01454v1
Date: Mon, 02 Mar 2026 05:11:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.687455
Title: VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models
Title（参考訳）: VidDoS:ビデオベースの大規模言語モデルに対するユニバーサルサービス拒否攻撃
Authors: Duoxun Tang, Dasen Dai, Jiyao Wang, Xiao Yang, Jianyu Wang, Siqi Cai,
Abstract要約: ビデオLLMは、安全クリティカルなアプリケーションにますますデプロイされるが、ELA(Energy-Latency Attacks)に弱い。我々は,VidDoSを紹介した。VidDoSは,ビデオLLM用にカスタマイズされた,初めてのユニバーサルELAフレームワークである。
参考スコア（独自算出の注目度）: 14.61633163075181
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video-LLMs are increasingly deployed in safety-critical applications but are vulnerable to Energy-Latency Attacks (ELAs) that exhaust computational resources. Current image-centric methods fail because temporal aggregation mechanisms dilute individual frame perturbations. Additionally, real-time demands make instance-wise optimization impractical for continuous video streams. We introduce VidDoS, which is the first universal ELA framework tailored for Video-LLMs. Our method leverages universal optimization to create instance-agnostic triggers that require no inference-time gradient calculation. We achieve this through $\textit{masked teacher forcing}$ to steer models toward expensive target sequences, combined with a $\textit{refusal penalty}$ and $\textit{early-termination suppression}$ to override conciseness priors. Testing across three mainstream Video-LLMs and three video datasets, which include video question answering and autonomous driving scenarios, shows extreme degradation. VidDoS induces a token expansion of more than 205$\times$ and inflates the inference latency by more than 15$\times$ relative to clean baselines. Simulations of real-time autonomous driving streams further reveal that this induced latency leads to critical safety violations. We urge the community to recognize and mitigate these high-hazard ELA in Video-LLMs.
Abstract（参考訳）: ビデオLLMはますます安全クリティカルなアプリケーションにデプロイされるが、計算資源を消費するELA(Energy-Latency Attacks)に弱い。現在の画像中心法は、時間的アグリゲーション機構が個々のフレームの摂動を減らしているため失敗する。さらに、リアルタイムの要求は、連続したビデオストリームに対してインスタンスワイズ最適化を非現実的にします。我々は,VidDoSを紹介した。VidDoSは,ビデオLLM用にカスタマイズされた,初めてのユニバーサルELAフレームワークである。提案手法は普遍最適化を利用して,推論時間勾配計算を必要としないインスタンスに依存しないトリガを生成する。 $\textit{masked teacher forcing}$ tosteer model to expensive target sequences, with a $\textit{refusal penalty}$ and $\textit{early-termpression}$ to override conciseness priors。ビデオ質問応答と自律運転シナリオを含む、メインストリームの3つのビデオ-LLMと3つのビデオデータセットを対象としたテストは、極端な劣化を示している。 VidDoSは205$\times$以上のトークン拡張を誘導し、クリーンベースラインに対して15$\times$以上の推論遅延を膨らませる。リアルタイムの自律運転ストリームのシミュレーションにより、この遅延が重大な安全違反につながることが明らかになった。我々は,このハイハザード ELA を Video-LLM で認識し,緩和するようコミュニティに促す。

関連論文リスト

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models [56.76440182038839]
ビデオ言語モデル(Video Language Models, ビデオ言語モデル)は、ビデオの時間的ダイナミクスを理解するためのAIシステムである。現在の方法では、マクロレベルのイベントとマイクロレベルの詳細の両方を見逃すことができるサンプリングを使用する。多くのフレームに対して高価なフルイメージエンコーディングを必要とせず、ビデオ冗長性と疎結合性を符号化するビデオプリミティブを活用することを提案する。
論文参考訳（メタデータ） (2026-02-13T18:57:31Z)
TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文参考訳（メタデータ） (2025-12-29T14:10:22Z)
RAPTOR: Real-Time High-Resolution UAV Video Prediction with Efficient Video Attention [15.333389194862677]
RAPTORはリアルタイムで高解像度のパフォーマンスを実現するビデオ予測アーキテクチャである。その中心となるイノベーションは、高解像度モデリングを分解する新しいトランスレータモジュールであるEfficient Video Attention (EVA)である。 RAPTORは、実際のUAVナビゲーションタスクにおけるミッション成功率を18%向上させる。
論文参考訳（メタデータ） (2025-12-25T15:12:55Z)
StreamingAssistant: Efficient Visual Token Pruning for Accelerating Online Video Understanding [29.539015046656615]
重要な情報を保持しつつコンテキスト長を削減する手段としてトークンプルーニングを提案する。具体的には、空間隣接ビデオトークン(MSSAVT)に対する最大類似性という新しい冗長度指標を導入する。マスク付きプルーニング戦略も設計し、互いに不適切なトークンがプルーニングされることを保証します。
論文参考訳（メタデータ） (2025-12-14T05:35:11Z)
Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。 EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。 Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文参考訳（メタデータ） (2025-12-04T11:12:13Z)
MotionStream: Real-Time Video Generation with Interactive Motion Controls [60.403597895657505]
単一GPU上で最大29FPSのストリーミング生成が可能なサブ秒レイテンシを実現するMotionStreamを提案する。提案手法は,グローバルなテキストプロンプトとローカルなモーションガイダンスに準拠する高品質なビデオを生成するが,リアルタイムでは推論を行わないモーションコントロールによるテキスト・ツー・ビデオモデルの拡張から始まる。我々のモデルでは、動きの追従と映像の質を2桁高速化し、無限長のストリーミングを可能にする。
論文参考訳（メタデータ） (2025-11-03T06:37:53Z)
Towards Redundancy Reduction in Diffusion Models for Efficient Video Super-Resolution [41.19210731686364]
ビデオ超解像(VSR)への生成拡散モデルへの直接適応は冗長性をもたらす。 OASISは、$textbfa$ttention $textbfs$pecialization for real-world v$textbfi$deo $textbfs$uper- resolutionを備えた効率的な$textbfo$ne-step拡散モデルである。 OASISは、合成データセットと実世界のデータセットの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-28T17:08:51Z)
VideoMAR: Autoregressive Video Generatio with Continuous Tokens [33.906543515428424]
マスケベースの自己回帰モデルでは、連続空間における有望な画像生成能力が実証されている。連続トークンを用いたデコーダのみの自己回帰画像-ビデオモデルである textbfVideoMAR を提案する。 VideoMARは以前の最先端(Cosmos I2V)よりはるかに少ないパラメータを必要とする。
論文参考訳（メタデータ） (2025-06-17T04:08:18Z)
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文参考訳（メタデータ） (2025-06-09T17:59:55Z)
Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文参考訳（メタデータ） (2025-03-17T21:13:48Z)
STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-16T15:37:22Z)
Intrinsic Temporal Regularization for High-resolution Human Video Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文参考訳（メタデータ） (2020-12-11T05:29:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。