論文の概要: Token Sequence Compression for Efficient Multimodal Computing
- arxiv url: http://arxiv.org/abs/2504.17892v1
- Date: Thu, 24 Apr 2025 19:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.556787
- Title: Token Sequence Compression for Efficient Multimodal Computing
- Title(参考訳): 効率的なマルチモーダルコンピューティングのためのトークン列圧縮
- Authors: Yasmine Omri, Parth Shroff, Thierry Tambe,
- Abstract要約: LMM(Large Multimodal Models)の指数的成長は、クロスモーダル推論の進歩を誘導しているが、計算コストは相当である。
我々は、現在の視覚エンコーダの冗長性と非効率性を強調し、マルチモーダルデータに対する適応圧縮手法の構築を目指す。
この研究は、高次元データのより効率的なエンコーディングと処理に向けた最初の取り組みであり、よりスケーラブルで持続可能なマルチモーダルシステムへの道を開いた。
- 参考スコア(独自算出の注目度): 0.19116784879310028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential growth of Large Multimodal Models (LMMs) has driven advancements in cross-modal reasoning but at significant computational costs. In this work, we focus on visual language models. We highlight the redundancy and inefficiency in current vision encoders, and seek to construct an adaptive compression method for multimodal data. In this work, we characterize a panoply of visual token selection and merging approaches through both benchmarking and qualitative analysis. In particular, we demonstrate that simple cluster-level token aggregation outperforms prior state-of-the-art works in token selection and merging, including merging at the vision encoder level and attention-based approaches. We underline the redundancy in current vision encoders, and shed light on several puzzling trends regarding principles of visual token selection through cross-modal attention visualizations. This work is a first effort towards more effective encoding and processing of high-dimensional data, and paves the way for more scalable and sustainable multimodal systems.
- Abstract(参考訳): LMM(Large Multimodal Models)の指数的成長は、クロスモーダル推論の進歩を誘導しているが、計算コストは相当である。
本研究では,視覚言語モデルに焦点をあてる。
我々は、現在の視覚エンコーダの冗長性と非効率性を強調し、マルチモーダルデータに対する適応圧縮手法の構築を目指す。
本研究では,ベンチマークと定性解析の両面から,視覚的トークン選択とマージアプローチのパノピーを特徴付ける。
特に、単純なクラスタレベルのトークンアグリゲーションは、トークンの選択やマージにおいて、視覚エンコーダレベルでのマージやアテンションベースのアプローチなど、従来の最先端の作業よりも優れていることを実証する。
我々は、現在の視覚エンコーダの冗長性を強調し、モーダルな注意の可視化を通して、視覚的トークン選択の原則に関するいくつかの謎めいた傾向に光を当てた。
この研究は、高次元データのより効率的なエンコーディングと処理に向けた最初の取り組みであり、よりスケーラブルで持続可能なマルチモーダルシステムへの道を開いた。
関連論文リスト
- Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。
現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。
マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文 参考訳(メタデータ) (2025-04-28T19:02:18Z) - Learning Free Token Reduction for Multi-Modal Large Language Models [3.4026156483879517]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
しかし、それらの実践的な展開は、しばしば高い計算コストと長期の推論時間によって制約される。
本稿では,空間次元と時間次元の両方で動作するトークン圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2025-01-29T02:52:32Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Importance-Based Token Merging for Efficient Image and Video Generation [41.94334394794811]
マージ時の高情報トークンの保存は,サンプルの品質を著しく向上させることを示す。
本稿では,計算資源割り当てにおいて最も重要なトークンを優先する重要度に基づくトークンマージ手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T02:01:49Z) - Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities [31.108694010274988]
本稿では,Byte-Pairの原理を適用し,このギャップを埋める新しい画像トークンを提案する。
視覚的エンコーダの分離に依存する従来の手法とは異なり,本手法では構造的事前情報を画像トークンに直接組み込む。
この革新的なアプローチにより、Transformerモデルはモダリティをより効果的に学習し、推論することができる。
論文 参考訳(メタデータ) (2024-10-03T02:34:31Z) - Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model [82.93634081255942]
本稿では,MLLMが低コストを維持しつつ高い精度を達成できるビジョン言語コネクタを提案する。
まず、視覚変換器における視覚アンカーの存在を明らかにし、それらを抽出するためのコスト効率の良い探索アルゴリズムを提案する。
Anchor former (AcFormer) は、事前学習中に得られた視覚的アンカーから得られる豊富な事前知識を活用するために設計された、新しい視覚言語コネクタである。
論文 参考訳(メタデータ) (2024-05-28T04:23:00Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。