論文の概要: Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2503.16036v1
- Date: Thu, 20 Mar 2025 11:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:36:15.190062
- Title: Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおけるビデオトークン圧縮のためのハイブリッドレベルインストラクションインジェクション
- Authors: Zhihang Liu, Chen-Wei Xie, Pandeng Li, Liming Zhao, Longxiang Tang, Yun Zheng, Chuanbin Liu, Hongtao Xie,
- Abstract要約: MLLM(HICom)における条件付きトーケン圧縮のためのハイブリッドレベルのインストラクションインジェクション戦略を提案する。
ローカルレベルとグローバルレベルの両方から圧縮を誘導する条件として,この命令を使用する。
実験の結果、HIComは少ないトークンで優れた映像理解能力を得ることができることがわかった。
- 参考スコア(独自算出の注目度): 36.16630765077807
- License:
- Abstract: Recent Multi-modal Large Language Models (MLLMs) have been challenged by the computational overhead resulting from massive video frames, often alleviated through compression strategies. However, the visual content is not equally contributed to user instructions, existing strategies (\eg, average pool) inevitably lead to the loss of potentially useful information. To tackle this, we propose the Hybrid-level Instruction Injection Strategy for Conditional Token Compression in MLLMs (HICom), utilizing the instruction as a condition to guide the compression from both local and global levels. This encourages the compression to retain the maximum amount of user-focused information while reducing visual tokens to minimize computational burden. Specifically, the instruction condition is injected into the grouped visual tokens at the local level and the learnable tokens at the global level, and we conduct the attention mechanism to complete the conditional compression. From the hybrid-level compression, the instruction-relevant visual parts are highlighted while the temporal-spatial structure is also preserved for easier understanding of LLMs. To further unleash the potential of HICom, we introduce a new conditional pre-training stage with our proposed dataset HICom-248K. Experiments show that our HICom can obtain distinguished video understanding ability with fewer tokens, increasing the performance by 2.43\% average on three multiple-choice QA benchmarks and saving 78.8\% tokens compared with the SOTA method. The code is available at https://github.com/lntzm/HICom.
- Abstract(参考訳): 最近のMulti-modal Large Language Models (MLLM) は、大規模なビデオフレームによる計算オーバーヘッドによって、しばしば圧縮戦略によって緩和されている。
しかし、ビジュアルコンテンツはユーザー指示に等しく寄与せず、既存の戦略(平均プール)は必然的に潜在的に有用な情報が失われる。
そこで本研究では,MLLMにおける条件付きトークン圧縮のためのハイブリッドレベルの命令注入戦略を提案し,この命令を局所レベルとグローバルレベルの両方から圧縮を誘導する条件として活用する。
これにより、圧縮は、計算負担を最小限に抑えるために、視覚トークンを減らしながら、ユーザ中心の情報の最大量を維持できる。
具体的には、局所レベルでグループ化された視覚トークンとグローバルレベルで学習可能なトークンに命令条件を注入し、条件圧縮を完了するための注意機構を実行する。
ハイブリッドレベル圧縮では、命令関連視覚部分が強調表示され、時間空間構造もLLMの理解を容易にするために保存される。
HIComの可能性をさらに解き放つために,提案したデータセット HICom-248K を用いた条件付き事前学習ステージを導入する。
実験により, HIComは, より少ないトークンで優れた映像理解能力を得ることができ, 複数選択QAベンチマークで平均2.43 %, SOTA法と比較して78.8 %のトークンを節約できることがわかった。
コードはhttps://github.com/lntzm/HIComで公開されている。
関連論文リスト
- Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models [28.311125014789905]
グローバル圧縮コマンド(Global Compression Commander、GlobalCom$2$)は、HR-LVLM用の新しいプラグアンドプレイトークン圧縮フレームワークである。
実験の結果,GlobalCom$2$は90%以上の視覚トークンを圧縮しながら90%以上の性能を維持していることがわかった。
論文 参考訳(メタデータ) (2025-01-09T11:57:58Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - Perception Compressor: A Training-Free Prompt Compression Framework in Long Context Scenarios [17.720102137585503]
Perceptionは、大規模な言語モデルのためのトレーニングフリーのプロンプト圧縮フレームワークである。
これには、指導的質問と指示を利用して、最も関連するデモンストレーションを検索する知覚検索機能が含まれる。
長いコンテキスト、ベンチマーク、iSie、LongBench、MuSiQueに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-09-28T07:13:33Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。