論文の概要: HIPPO: Accelerating Video Large Language Models Inference via Holistic-aware Parallel Speculative Decoding
- arxiv url: http://arxiv.org/abs/2601.08273v1
- Date: Tue, 13 Jan 2026 07:02:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.089006
- Title: HIPPO: Accelerating Video Large Language Models Inference via Holistic-aware Parallel Speculative Decoding
- Title(参考訳): HIPPO: ホロスティックな並列投機デコードによるビデオ大言語モデル推論の高速化
- Authors: Qitan Lv, Tianyu Liu, Wen Wu, Xuenan Xu, Bowen Zhou, Feng Wu, Chao Zhang,
- Abstract要約: 投機的復号化は、出力品質を犠牲にすることなくLSM推論を加速するための有望なアプローチとして登場した。
提案するHIPPOは,汎用的な並列投機復号化フレームワークである。
6つのベンチマークで4つのビデオLLMの実験では、HIPPOの有効性が示され、最大3.51倍のスピードアップが達成された。
- 参考スコア(独自算出の注目度): 48.55833840968632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding (SD) has emerged as a promising approach to accelerate LLM inference without sacrificing output quality. Existing SD methods tailored for video-LLMs primarily focus on pruning redundant visual tokens to mitigate the computational burden of massive visual inputs. However, existing methods do not achieve inference acceleration comparable to text-only LLMs. We observe from extensive experiments that this phenomenon mainly stems from two limitations: (i) their pruning strategies inadequately preserve visual semantic tokens, degrading draft quality and acceptance rates; (ii) even with aggressive pruning (e.g., 90% visual tokens removed), the draft model's remaining inference cost limits overall speedup. To address these limitations, we propose HIPPO, a general holistic-aware parallel speculative decoding framework. Specifically, HIPPO proposes (i) a semantic-aware token preservation method, which fuses global attention scores with local visual semantics to retain semantic information at high pruning ratios; (ii) a video parallel SD algorithm that decouples and overlaps draft generation and target verification phases. Experiments on four video-LLMs across six benchmarks demonstrate HIPPO's effectiveness, yielding up to 3.51x speedup compared to vanilla auto-regressive decoding.
- Abstract(参考訳): 投機的復号法 (SD) は, 出力品質を犠牲にすることなく, LLM推論を高速化する有望な手法として登場した。
既存のビデオLLM用に調整されたSD方式は、大規模な視覚入力の計算負担を軽減するために、冗長な視覚トークンのプルーニングに重点を置いている。
しかし、既存の手法ではテキストのみのLLMに匹敵する推論の高速化は達成されていない。
我々は、この現象が主に2つの制限から生じるという広範な実験から観察する。
一 図柄の質及び受入率を損なうことなく、視覚的意味トークンを不適切に保存すること。
(ii) アグレッシブプルーニング(例えば、90%の視覚トークンを除去)であっても、ドラフトモデルの残りの推論コストは、全体的なスピードアップを制限します。
これらの制約に対処するため,汎用的な並列投機的デコードフレームワークであるHIPPOを提案する。
特にHIPPOは
一 グローバルアテンションスコアを局所的な視覚的セマンティクスと融合させ、セマンティクス情報を高い採点率で保持するセマンティクス対応トークン保存方法
(II) ドラフト生成とターゲット検証フェーズを分離・重複するビデオ並列SDアルゴリズム。
6つのベンチマークで4つのビデオLLMの実験では、HIPPOの有効性が示され、バニラの自動回帰デコードと比較して最大3.51倍のスピードアップとなった。
関連論文リスト
- WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference [49.84148668264725]
SparseVILAは効率的なVLM推論のための新しいパラダイムであり、前処理と復号の段階で視覚空間を疎結合する。
AWQ最適化推論パイプライン上に構築されたSparseVILAは、プリフィルの最大4.0倍、デコーディングの2.5倍、長文ビデオタスクの2.6倍のエンドツーエンド高速化を実現している。
論文 参考訳(メタデータ) (2025-10-20T17:35:47Z) - Decoding Memories: An Efficient Pipeline for Self-Consistency Hallucination Detection [17.792828844969033]
選択的推論と復号化により生成を高速化する新しいデコードメモリパイプライン(DMP)を提案する。
提案手法は,AUROC性能を犠牲にすることなく,最大3倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-08-28T21:39:53Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - FLASH: Latent-Aware Semi-Autoregressive Speculative Decoding for Multimodal Tasks [41.04727840852988]
大規模言語とマルチモーダルモデル(LLMとLMM)は強い推論能力を示すが、しばしば遅い復号速度によって制限される。
視覚的な入力は通常、テキストよりも低い情報密度のトークンで構成されている。
LMM用に設計された投機的復号化フレームワークである textbfFLASH (Fast Latent-Aware Semi-Autoregressive Heuristics) を提案する。
論文 参考訳(メタデータ) (2025-05-19T05:35:30Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。