Fugu-MT 論文翻訳(概要): Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs

論文の概要: Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs

arxiv url: http://arxiv.org/abs/2505.19155v1
Date: Sun, 25 May 2025 14:09:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.940597
Title: Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs
Title（参考訳）: Sparse-to-Dense:LLMにおけるビデオ理解のロスレス高速化のためのフリーランチ
Authors: Xuan Zhang, Cunxiao Du, Sicheng Yu, Jiawei Wu, Fengzhuo Zhang, Wei Gao, Qian Liu,
Abstract要約: Sparse-to-Dense(StD)は、2つの異なるモジュールを統合する新しいデコード戦略である。 StDはチューニング不要のプラグイン・アンド・プレイのソリューションで、最大1.94$times$ビデオ処理のウォールタイムスピードアップを実現している。
参考スコア（独自算出の注目度）: 25.13186579764434
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Due to the auto-regressive nature of current video large language models (Video-LLMs), the inference latency increases as the input sequence length grows, posing challenges for the efficient processing of video sequences that are usually very long. We observe that during decoding, the attention scores of most tokens in Video-LLMs tend to be sparse and concentrated, with only certain tokens requiring comprehensive full attention. Based on this insight, we introduce Sparse-to-Dense (StD), a novel decoding strategy that integrates two distinct modules: one leveraging sparse top-K attention and the other employing dense full attention. These modules collaborate to accelerate Video-LLMs without loss. The fast (sparse) model speculatively decodes multiple tokens, while the slow (dense) model verifies them in parallel. StD is a tuning-free, plug-and-play solution that achieves up to a 1.94$\times$ walltime speedup in video processing. It maintains model performance while enabling a seamless transition from a standard Video-LLM to a sparse Video-LLM with minimal code modifications.
Abstract（参考訳）: 現在のビデオ大言語モデル(ビデオ-LLM)の自己回帰性のため、入力シーケンスの長さが大きくなるにつれて推論遅延が増加し、通常非常に長いビデオシーケンスの効率的な処理に課題が生じる。復号中、ビデオLLMのほとんどのトークンのアテンションスコアは狭く集中しがちであり、特定のトークンだけが包括的なフルアテンションを必要とする。この知見に基づき、Sparse-to-Dense(StD)という2つの異なるモジュールを統合した新しいデコード戦略を紹介した。これらのモジュールは、ビデオ-LLMを損失なく加速するために協力する。高速(スパース)モデルは複数のトークンを投機的にデコードし、遅い(密度)モデルはそれらを並列に検証する。 StDは、ビデオ処理において最大1.94$\times$ウォールタイムのスピードアップを実現する、チューニング不要のプラグイン&プレイソリューションである。標準のVideo-LLMから、最小限のコード修正でスパースなVideo-LLMへのシームレスな移行を可能にしながら、モデルパフォーマンスを維持している。

関連論文リスト

Free-MoRef: Instantly Multiplexing Context Perception Capabilities of Video-MLLMs within Single Inference [88.57742986765238]
Free-MoRefは、ビデオMLLMのコンテキスト認識能力を多重化するトレーニング不要のアプローチである。実験によると、Free-MoRefは1つのA100 GPUで圧縮することなく、2$times$から8$times$の入力フレームを完全に認識できる。
論文参考訳（メタデータ） (2025-08-04T07:31:10Z)
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design [54.38970077613728]
ビデオ監視、会議要約、教育講義分析、スポーツ放送といった現実の応用において、ロングビデオ理解が重要な機能として現れてきた。我々は,リアルタイムダウンストリームアプリケーションをサポートするために,長時間ビデオ理解を大幅に高速化するシステムアルゴリズムの共同設計であるQuickVideoを提案する。
論文参考訳（メタデータ） (2025-05-22T03:26:50Z)
Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文参考訳（メタデータ） (2025-04-14T17:34:06Z)
Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks [21.710127132217526]
本稿では,ビデオ・インタフェース・ネットワーク (VIN) と呼ばれる新しいパラダイムを導入し,ビデオ・チャンクの並列推論を可能にする抽象化モジュールでDiTを拡張した。 VINは局所チャンクのノイズの多い入力と符号化された表現からグローバルセマンティクスをエンコードする。フルジェネレーションよりも25～40%少ないFLOPを用いて,最先端動作のスムーズさを実現する。
論文参考訳（メタデータ） (2025-03-21T21:13:02Z)
BIMBA: Selective-Scan Compression for Long-Range Video Question Answering [46.199493246921435]
長いビデオにおけるビデオ質問回答(VQA)は、関連する情報を抽出する上で重要な課題である。長大なビデオを扱うための効率的な状態空間モデルであるBIMBAを紹介する。
論文参考訳（メタデータ） (2025-03-12T17:57:32Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner [53.671484175063995]
ビデオ-LLMはショートビデオの処理のために事前訓練されており、長いビデオコンテンツを理解するための幅広いアプリケーションを制限する。固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。
論文参考訳（メタデータ） (2024-09-19T17:59:55Z)
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文参考訳（メタデータ） (2024-07-22T17:58:04Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。