論文の概要: ParallelVLM: Lossless Video-LLM Acceleration with Visual Alignment Aware Parallel Speculative Decoding
- arxiv url: http://arxiv.org/abs/2603.19610v2
- Date: Mon, 23 Mar 2026 04:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 14:46:12.194609
- Title: ParallelVLM: Lossless Video-LLM Acceleration with Visual Alignment Aware Parallel Speculative Decoding
- Title(参考訳): ParallelVLM: 並列投機復号を意識した視覚アライメントによる無損失ビデオLLM高速化
- Authors: Quan Kong, Yuhao Shen, Yicheng Ji, Huan Li, Cong Wang,
- Abstract要約: ビデオLLMは、ビデオ理解タスクにおいて素晴らしいパフォーマンスを達成するが、その自己回帰復号効率は、膨大な数のビデオトークンによって制限されている。
ビジュアルトークンのプルーニングは、このボトルネックを部分的に緩和するが、既存のアプローチは情報損失に悩まされ、復号化において緩やかな加速しか得られない。
トレーニング不要なドラフトテーマ検証型投機的復号化フレームワークであるParallelVLMを提案する。
- 参考スコア(独自算出の注目度): 16.62872729149327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although current Video-LLMs achieve impressive performance in video understanding tasks, their autoregressive decoding efficiency remains constrained by the massive number of video tokens. Visual token pruning can partially ease this bottleneck, yet existing approaches still suffer from information loss and yield only modest acceleration in decoding. In this paper, we propose ParallelVLM, a training-free draft-then-verify speculative decoding framework that overcomes both mutual waiting and limited speedup-ratio problems between draft and target models in long-video settings. ParallelVLM features two parallelized stages that maximize hardware utilization and incorporate an Unbiased Verifier-Guided Pruning strategy to better align the draft and target models by eliminating the positional bias in attention-guided pruning. Extensive experiments demonstrate that ParallelVLM effectively expands the draft window by $1.6\sim1.8\times$ with high accepted lengths, and accelerates various video understanding benchmarks by 3.36$\times$ on LLaVA-Onevision-72B and 2.42$\times$ on Qwen2.5-VL-32B compared with vanilla autoregressive decoding.
- Abstract(参考訳): 現在のビデオLLMは、ビデオ理解タスクにおいて素晴らしいパフォーマンスを達成しているが、その自己回帰復号効率は、膨大な数のビデオトークンによって制限されている。
ビジュアルトークンのプルーニングは、このボトルネックを部分的に緩和するが、既存のアプローチは情報損失に悩まされ、復号化において緩やかな加速しか得られない。
本稿では,長期ビデオ環境下でのドラフトモデルとターゲットモデル間の相互待ち時間と制限されたスピードアップ比の問題を克服する,トレーニング不要なドラフトテーマ検証型投機的復号化フレームワークであるParallelVLMを提案する。
ParallelVLMは、ハードウェア利用を最大化する2つの並列化ステージを備え、注意誘導プルーニングにおける位置バイアスを排除し、ドラフトとターゲットモデルの整合性を向上するUnbiased Verifier-Guided Pruning戦略を取り入れている。
大規模な実験により、ParallelVLMはドラフトウィンドウを1.6\sim1.8\times$で拡張し、様々なビデオ理解ベンチマークを3.36$\times$ on LLaVA-Onevision-72Bと2.42$\times$ on Qwen2.5-VL-32Bで高速化した。
関連論文リスト
- VidLaDA: Bidirectional Diffusion Large Language Models for Efficient Video Understanding [52.69880888587866]
現在のビデオ大言語モデル(ビデオLLM)は、典型的にはエンコーダビジョンを介してフレームを符号化し、自己回帰(AR)LLMを使用して理解と生成を行う。
本稿では,言語モデル(DLM)に基づく拡散ビデオLLMであるVidLaDAを提案する。
実験によると、VidLaDAは最先端のARベースラインと競合し、DLMベースラインを上回り、MARS-Cacheは精度を損なうことなく12倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-25T15:02:01Z) - InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models [49.08289742711585]
我々は、Gated DeltaNetとSWA(Slide window attention)を相乗化する線形複雑VLMアーキテクチャであるInfiniteVLを提案する。
InfiniteVLは、一定のレイテンシとメモリフットプリントを維持しながら、3.6時間以上の推論高速化を実現する。
ストリーミングビデオ理解のシナリオでは、長期メモリキャッシュを保持しながら、24FPSのリアルタイムプリフィル速度を安定的に維持する。
論文 参考訳(メタデータ) (2025-12-09T17:18:32Z) - ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs [31.387806058620683]
拡散LDMは、並列復号による推論を劇的に加速する可能性への関心が高まっている。
既存の作業は、これらの固有の課題を概ね見落としており、標準ベンチマークによる評価は、並列復号による品質劣化を捉えるのに十分ではない。
そこで我々は,DLLMに特化して設計された最初のベンチマークであるParallelBenchを提案する。
我々の発見は、現在のスピード品質のトレードオフを克服できる革新的な復号法の必要性を強調している。
論文 参考訳(メタデータ) (2025-10-06T12:41:31Z) - SpecVLM: Fast Speculative Decoding in Vision-Language Models [14.243294546325714]
投機的復号化は自己回帰型大規模言語モデル(LLM)を高速化する強力な方法である
視覚言語モデル(VLM)の投機的復号化について検討する。
1.5--2.3xのエンドツーエンドの高速化を完全自己回帰推論で実現する実用システムであるSpecVLMを紹介する。
論文 参考訳(メタデータ) (2025-09-15T11:53:56Z) - SpecVLM: Enhancing Speculative Decoding of Video LLMs via Verifier-Guided Token Pruning [27.000912841279597]
本稿では,Vid-LLM向けに設計されたトレーニング不要な投機的復号化フレームワークSpecVLMを紹介する。
SpecVLMは、精度を犠牲にすることなく効率的な投機を可能にするために、最大90%のビデオトークンを作成できる。
LLaVA-OneVision-72Bの2.68$times$デコードスピードアップとQwen2.5-VL-32Bの2.11$times$スピードアップを実現している。
論文 参考訳(メタデータ) (2025-08-22T08:23:09Z) - Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs [57.69190972274813]
Diffusion Large Language Models (DLLM) は、自動回帰モデルの魅力的な代替品として登場した。
既存のDLLMは、高速な並列復号化によって性能が著しく低下する、厳しい品質と速度のトレードオフに悩まされている。
本稿では,DLLMの復号化を可能にするトレーニング不要復号アルゴリズムであるWide-In, Narrow-Out (WINO)を紹介する。
論文 参考訳(メタデータ) (2025-07-24T16:51:33Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。