論文の概要: On the Limits of Token Reduction for Efficient Unified Vision Language Training
- arxiv url: http://arxiv.org/abs/2606.01503v1
- Date: Sun, 31 May 2026 23:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.738722
- Title: On the Limits of Token Reduction for Efficient Unified Vision Language Training
- Title(参考訳): 効率的な一元化視覚言語学習のためのトークン削減の限界について
- Authors: Siyi Chen, Weiming Zhuang, Jingtao Li, Lingjuan Lv,
- Abstract要約: 統一視覚言語モデル(VLM)は、視覚理解と視覚生成を単一の自己回帰バックボーンに統合する。
VLM統合トレーニングにおけるトークン推論に基づくアクセラレーションの実現可能性と限界について検討する。
- 参考スコア(独自算出の注目度): 15.69600993792123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified vision-language models (VLMs) integrate visual understanding and visual generation within a single autoregressive backbone, but their joint training is computationally expensive and largely overlooked from an efficiency perspective. In this work, we study the feasibility and limits of token-reduction-based acceleration for unified VLM training. Through a systematic analysis of layerwise attention allocation, we uncover a fundamental asymmetry: visual understanding exhibits substantial late-layer visual redundancy, whereas visual generation maintains persistent dependence on image tokens across depth. Guided by this observation, we design task-specific accelerators that selectively reduce image-token computation for each objective. While these methods achieve significant efficiency gains in isolated settings, we observe a consistent synergy loss under unified training -- task-specific token dropping necessitates divergent parameter pathways and eliminates the mutual performance gains typically observed in joint optimization. Our findings suggest that efficient unified modeling requires preserving shared cross-task structures, highlighting the need for synergy-aware acceleration strategies. Project page: https://chicychen.github.io/TokenReductionUnifiedVLM/.
- Abstract(参考訳): 統一視覚言語モデル(VLM)は、視覚理解と視覚生成を単一の自己回帰バックボーンに統合するが、その共同トレーニングは計算コストが高く、効率の観点から見落とされがちである。
本研究では,VLM統合トレーニングにおけるトークン推論に基づくアクセラレーションの実現可能性と限界について検討する。
視覚的理解は遅延層の視覚的冗長性を示すが、視覚的生成は深度にわたる画像トークンへの永続的依存を保っている。
本研究は,タスク固有の加速器を設計し,各目的の画像処理を選択的に削減する。
これらの手法は,一貫した学習条件下での相乗効果を著しく向上させるが,タスク固有のトークンドロップは分岐パラメータ経路を必要とするため,共同最適化で一般的に見られる相互のパフォーマンス向上は不要である。
この結果から,効率的な統合モデリングにはクロスタスク構造を共有保存する必要があることが示唆され,シナジー対応加速度戦略の必要性が浮き彫りとなった。
プロジェクトページ: https://chicychen.github.io/TokenReductionUnifiedVLM/。
関連論文リスト
- VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions [51.41587958253802]
視覚情報を捨てることなく推論コストを削減するVISOR(VISion On Request)を導入する。
VISORは画像とテキストトークン間の相互作用をスパースすることで効率を向上する。
実験により、VISORは、最先端の結果を一致または超えながら、計算コストを大幅に削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T17:58:17Z) - UniCompress: Token Compression for Unified Vision-Language Understanding and Generation [62.943173382496276]
統一モデルは、イメージを個別のトークンにエンコードし、テキストと共にそれらを処理することによって、理解と生成の両方をサポートすることを目的としている。
本稿では,画像理解と生成の両タスクのパフォーマンスを保ちながら,視覚的トークン数を大幅に削減する統一されたトークン圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-11T21:27:15Z) - AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models [63.05306474002547]
を強制する規制フレームワークは、機械学習の必要性を喚起します。
AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。
AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-14T13:35:32Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。