論文の概要: UniCompress: Token Compression for Unified Vision-Language Understanding and Generation
- arxiv url: http://arxiv.org/abs/2603.11320v1
- Date: Wed, 11 Mar 2026 21:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.654336
- Title: UniCompress: Token Compression for Unified Vision-Language Understanding and Generation
- Title(参考訳): UniCompress:統一ビジョン言語理解と生成のためのToken Compression
- Authors: Ziyao Wang, Chen Chen, Jingtao Li, Weiming Zhuang, Jiabo Huang, Ang Li, Lingjuan Lyu,
- Abstract要約: 統一モデルは、イメージを個別のトークンにエンコードし、テキストと共にそれらを処理することによって、理解と生成の両方をサポートすることを目的としている。
本稿では,画像理解と生成の両タスクのパフォーマンスを保ちながら,視覚的トークン数を大幅に削減する統一されたトークン圧縮アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 62.943173382496276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified models aim to support both understanding and generation by encoding images into discrete tokens and processing them alongside text within a single autoregressive framework. This unified design offers architectural simplicity and cross-modal synergy, which facilitates shared parameterization, consistent training objectives, and seamless transfer between modalities. However, the large number of visual tokens required by such models introduces substantial computation and memory overhead, and this inefficiency directly hinders deployment in resource constrained scenarios such as embodied AI systems. In this work, we propose a unified token compression algorithm UniCompress that significantly reduces visual token count while preserving performance on both image understanding and generation tasks. Our method introduces a plug-in compression and decompression mechanism guided with learnable global meta tokens. The framework is lightweight and modular, enabling efficient integration into existing models without full retraining. Experimental results show that our approach reduces image tokens by up to 4 times, achieves substantial gains in inference latency and training cost, and incurs only minimal performance degradation, which demonstrates the promise of token-efficient unified modeling for real world multimodal applications.
- Abstract(参考訳): 統一モデルは、イメージを離散トークンにエンコードし、単一の自己回帰フレームワーク内でテキストと共に処理することで、理解と生成の両方をサポートすることを目的としている。
この統一された設計は、アーキテクチャの単純さとクロスモーダルなシナジーを提供し、共有パラメータ化、一貫したトレーニング目標、モダリティ間のシームレスな転送を容易にする。
しかし、そのようなモデルで要求される大量のビジュアルトークンは、かなりの計算とメモリオーバーヘッドをもたらし、この非効率性は、具体化されたAIシステムのようなリソース制約されたシナリオへの展開を直接妨げている。
本研究では,画像理解と生成の両タスクのパフォーマンスを保ちながら,視覚的トークン数を大幅に削減する統一型トークン圧縮アルゴリズムUniCompressを提案する。
本手法では,学習可能なグローバルメタトークンでガイドされるプラグイン圧縮と非圧縮機構を導入する。
フレームワークは軽量でモジュール化されており、完全に再トレーニングすることなく既存のモデルへの効率的な統合を可能にする。
実験の結果,提案手法は画像トークンを最大4倍削減し,推論遅延やトレーニングコストの大幅な向上を実現し,性能劣化を最小限に抑え,実世界のマルチモーダルアプリケーションにおけるトークン効率の統一モデリングの実現を実証している。
関連論文リスト
- AdaTok: Adaptive Token Compression with Object-Aware Representations for Efficient Multimodal LLMs [29.68162972167947]
適応トークン圧縮のためのオブジェクトレベルのトークンマージ戦略を提案する。
当社のアプローチでは,バニラモデルのパフォーマンスの96%を達成しながら,トークンの10%しか使用していません。
論文 参考訳(メタデータ) (2025-11-18T06:12:15Z) - LaCo: Efficient Layer-wise Compression of Visual Tokens for Multimodal Large Language Models [62.240460476785934]
視覚エンコーダの中間層内で効果的なトークン圧縮を実現する新しいフレームワークであるLaCo(Layer-wise Visual Token Compression)を提案する。
LaCoは,1)空間-チャネル変換によって隣接するトークンを体系的にマージするレイヤワイドピクセルシャッフル機構,2)非パラメトリックショートカットを用いた残差学習アーキテクチャ,の2つのコアコンポーネントを導入している。
論文 参考訳(メタデータ) (2025-07-03T03:42:54Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。