論文の概要: AdaTok: Adaptive Token Compression with Object-Aware Representations for Efficient Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2511.14169v1
- Date: Tue, 18 Nov 2025 06:12:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.962188
- Title: AdaTok: Adaptive Token Compression with Object-Aware Representations for Efficient Multimodal LLMs
- Title(参考訳): AdaTok: 効率的なマルチモーダルLCMのためのオブジェクト認識表現による適応的トークン圧縮
- Authors: Xinliang Zhang, Lei Zhu, Hangzhou He, Shuang Zeng, Ourui Fu, Jiakui Hu, Zhengjian Yao, Yanye Lu,
- Abstract要約: 適応トークン圧縮のためのオブジェクトレベルのトークンマージ戦略を提案する。
当社のアプローチでは,バニラモデルのパフォーマンスの96%を達成しながら,トークンの10%しか使用していません。
- 参考スコア(独自算出の注目度): 29.68162972167947
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated substantial value in unified text-image understanding and reasoning, primarily by converting images into sequences of patch-level tokens that align with their architectural paradigm. However, patch-level tokenization leads to a quadratic growth in image tokens, burdening MLLMs' understanding and reasoning with enormous computation and memory. Additionally, the traditional patch-wise scanning tokenization workflow misaligns with the human vision cognition system, further leading to hallucination and computational redundancy. To address this issue, we propose an object-level token merging strategy for Adaptive Token compression, revealing the consistency with human vision system. The experiments are conducted on multiple comprehensive benchmarks, which show that our approach averagely, utilizes only 10% tokens while achieving almost 96% of the vanilla model's performance. More extensive experimental results in comparison with relevant works demonstrate the superiority of our method in balancing compression ratio and performance. Our code will be available.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像からアーキテクチャパラダイムに沿ったパッチレベルのトークンのシーケンスに変換することで、統一されたテキストイメージ理解と推論においてかなりの価値を証明している。
しかし、パッチレベルのトークン化は画像トークンの二次的な成長をもたらし、MLLMの理解と推論を膨大な計算とメモリで負担する。
さらに、従来のパッチ単位でのスキャントークン化ワークフローは、人間の視覚認知システムと不一致であり、さらに幻覚と計算冗長性につながっている。
この問題に対処するために,適応トークン圧縮のためのオブジェクトレベルのトークンマージ戦略を提案し,人間の視覚システムとの整合性を明らかにする。
その結果,バニラモデルの性能の約96%を達成しながら,平均で10%のトークンしか利用していないことがわかった。
圧縮比と性能のバランスをとる上で,本手法が優れていることを示す。
私たちのコードは利用可能です。
関連論文リスト
- CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - Balanced Token Pruning: Accelerating Vision Language Models Beyond Local Optimization [30.73986620551153]
LVLM(Large Vision-Language Models)は、イメージを数千のトークンにエンコードすることで、マルチモーダルタスク全体で素晴らしいパフォーマンスを示している。
従来のアプローチでは、トークンのプルーニングによって画像トークンの数を減らそうとしていた。
本稿では,視覚トークンをプルーニングするためのプラグイン・アンド・プレイ方式であるBa balanced Token Pruning (BTP)を提案する。
論文 参考訳(メタデータ) (2025-05-28T07:00:50Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。
主な計算負担は、処理されたテキストと視覚トークンから生じる。
視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。