Fugu-MT 論文翻訳(概要): InfoMerge: Information-aware Token Compression for Efficient Video Large Language Models

論文の概要: InfoMerge: Information-aware Token Compression for Efficient Video Large Language Models

arxiv url: http://arxiv.org/abs/2606.02161v1
Date: Mon, 01 Jun 2026 12:24:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:31.991948
Title: InfoMerge: Information-aware Token Compression for Efficient Video Large Language Models
Title（参考訳）: InfoMerge:効率的なビデオ大言語モデルのための情報認識トークン圧縮
Authors: Xinxin Liu, Shiwei Gan, Xiao Liu, Yafeng Yin, Lei Xie, Sanglu Lu,
Abstract要約: ビデオ大言語モデル(ビデオ-LLM)は、ビデオ理解において高い性能を達成するが、その過度な視覚トークンは、計算上のオーバーヘッドを著しく引き起こす。本稿では,ロバストな冗長性推定とコンテンツ対応予算配分によるトークン利用を改善する,トレーニング不要なビジュアルトークン圧縮手法であるInfoMergeを提案する。 LLaVA-OneVision-7Bでは、InfoMergeはオリジナルの平均性能の98.8%を維持し、ビジュアルトークンの85%を削減し、プリフィル段階で4.24倍のスピードアップを達成する。
参考スコア（独自算出の注目度）: 24.36425066833425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video Large Language Models (Video-LLMs) achieve strong performance in video understanding, but their excessive visual tokens bring substantial computational overhead. Existing training-free compression methods improve inference efficiency by reducing visual tokens, yet they often rely on local adjacent-frame similarity for temporal redundancy estimation or allocate token budgets mainly according to segment length. Such designs are sensitive to frame-level noise and fail to capture the non-uniform information distribution of real-world videos. To address these challenges, we propose InfoMerge, a training-free visual token compression method that improves token utilization through robust redundancy estimation and content-aware budget allocation. Specifically, we propose the Temporal Fingerprint Difference: a segment-level second-order temporal redundancy estimation strategy, which models the temporal similarity structure of tokens at the same spatial positions within each segment. We further introduce Content-Aware Budget Allocation (CABA), which dynamically allocates segment-level token budgets based on segment uniqueness and spectral-entropy-based representational richness. By reducing repeated preservation of redundant static regions and allocating more tokens to informative segments, InfoMerge makes better use of the limited token budget while maintaining strong performance. Extensive experiments show that InfoMerge achieves strong efficiency--accuracy trade-offs across multiple benchmarks and backbones, with more pronounced advantages under aggressive compression. On LLaVA-OneVision-7B, InfoMerge retains 98.8\% of the original average performance while reducing 85\% of visual tokens and achieving a 4.24-fold speedup in the prefill stage.
Abstract（参考訳）: ビデオ大言語モデル(ビデオ-LLM)は、ビデオ理解において高い性能を達成するが、その過度な視覚トークンは、計算上のオーバーヘッドを著しく引き起こす。既存のトレーニングフリー圧縮手法は、視覚トークンを減らすことで推論効率を向上させるが、時間的冗長性の推定や、主にセグメント長に応じてトークン予算を割り当てるために、局所的な隣接フレーム類似性に依存することが多い。このような設計はフレームレベルのノイズに敏感であり、現実世界のビデオの均一な情報分布を捉えることができない。これらの課題に対処するために、堅牢な冗長性推定とコンテンツ対応予算配分によるトークン利用を改善する、トレーニング不要なビジュアルトークン圧縮手法であるInfoMergeを提案する。具体的には,各セグメント内の同じ空間位置におけるトークンの時間的類似度構造をモデル化した,セグメントレベルの時間的冗長性推定戦略であるテンポラルフィンガープリント差分を提案する。さらに、セグメントのユニークさとスペクトルエントロピーに基づく表現豊かさに基づいてセグメントレベルのトークン予算を動的に割り当てるContent-Aware Budget Allocation (CABA)を導入する。冗長な静的リージョンの繰り返し保存を減らし、より多くのトークンを情報セグメントに割り当てることによって、InfoMergeは、強力なパフォーマンスを維持しながら制限されたトークン予算をうまく活用する。大規模な実験の結果、InfoMergeは複数のベンチマークやバックボーンにまたがって高い効率-精度のトレードオフを実現している。 LLaVA-OneVision-7Bでは、InfoMergeはオリジナルの平均性能の98.8 %を維持し、85 %の視覚トークンを削減し、プリフィル段階で4.24 倍のスピードアップを達成する。

関連論文リスト

DynaTok: Temporally Adaptive and Positional Bias-Aware Token Compression for Video-LLMs [2.6035240359441274]
DynaTokはトレーニングフリーで、時間適応的でバイアス対応のトークン圧縮フレームワークである。トークンの予算を時間次元と空間次元の両方に割り当てる。 90%のトークン削減であっても、95%以上のベースライン精度を維持している。
論文参考訳（メタデータ） (2026-05-19T04:02:01Z)
KiToke: Kernel-based Interval-aware Token Compression for Video Large Language Models [12.489375650998554]
KiTokeは、トレーニング不要でクエリに依存しないトークン圧縮アプローチである。カーネルベースの測度を用いて,トークンの多様性を世界規模で推定する。実験の結果, KiToke は既存のトレーニング不要圧縮法よりも優れていた。
論文参考訳（メタデータ） (2026-04-03T19:18:22Z)
Unified Spatiotemporal Token Compression for Video-LLMs at Ultra-Low Retention [23.015486635502437]
ビデオ言語モデル(ビデオ-LLM)は、大量の視覚トークンのために高い計算コストに直面している。グローバルな選択トークンに意味的類似性を重み付けする統一選択機構を提案する。選択されていないトークンはクラスタリングとリフィルによってマージされ、情報の整合性を保持する。我々の統合的時間トークン圧縮戦略は,超低トークン保持下での映像理解における最先端技術を確立する。
論文参考訳（メタデータ） (2026-03-23T13:15:22Z)
Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models [61.11154533305096]
ビデオ大言語モデル(VLLM)は、強力なビデオ理解を示すが、冗長な視覚トークンによる非効率性に悩まされる。フレーム内およびフレーム間コンテキスト内でトークン textbfAnchors を詳述する新しい視点を提案する。提案するAOTは,先行するビデオLLMのショート・ビデオベンチマークとロング・ビデオベンチマークの競合性能を比較検討する。
論文参考訳（メタデータ） (2026-03-02T03:06:40Z)
Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。 SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-24T18:59:05Z)
FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文参考訳（メタデータ） (2025-10-31T17:29:39Z)
MMG-Vid: Maximizing Marginal Gains at Segment-level and Token-level for Efficient Video LLMs [67.75865317787708]
MMG-Vidは、ビデオ理解のためのトレーニング不要なビジュアルトークンプルーニングフレームワークである。 MMG-Vidはオリジナルのパフォーマンスの99.5%以上を維持でき、視覚トークンの75%を効果的に削減できることを示す。
論文参考訳（メタデータ） (2025-08-28T17:50:03Z)
VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。 Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文参考訳（メタデータ） (2025-03-21T09:46:31Z)
CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文参考訳（メタデータ） (2022-05-02T12:02:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。