論文の概要: Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Large Models
- arxiv url: http://arxiv.org/abs/2407.11717v1
- Date: Tue, 16 Jul 2024 13:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 14:52:24.952640
- Title: Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Large Models
- Title(参考訳): ターボ:視覚言語大モデルのためのインフォーマティビティ駆動加速プラグイン
- Authors: Chen Ju, Haicheng Wang, Haozhe Cheng, Xu Chen, Zhonghua Zhai, Weilin Huang, Jinsong Lan, Shuai Xiao, Bo Zheng,
- Abstract要約: Turboは、情報次数を参照するデータをソートするプラグインで、トップレベルのデータだけを使ってコストを節約する。
複数のVLMベンチマークにおいて,我々はTurboの良好な加速を無視可能な性能低下下で完全に実証する実験を行った。
- 参考スコア(独自算出の注目度): 31.08312208507481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Large Models (VLMs) recently become primary backbone of AI, due to the impressive performance. However, their expensive computation costs, i.e., throughput and delay, impede potentials in the real-world scenarios. To achieve acceleration for VLMs, most existing methods focus on the model perspective: pruning, distillation, quantization, but completely overlook the data-perspective redundancy. To fill the overlook, this paper pioneers the severity of data redundancy, and designs one plug-and-play Turbo module guided by information degree to prune inefficient tokens from visual or textual data. In pursuit of efficiency-performance trade-offs, information degree takes two crucial factors into consideration: mutual redundancy and semantic value. Concretely, the former evaluates data duplication between sequential tokens; while the latter evaluates each token by its contribution to the overall semantics. As a result, tokens with high information degree carry less redundancy and stronger semantics. For VLMs' calculation, Turbo works as a user-friendly plug-in that sorts data referring to information degree, utilizing only top-level ones to save costs. Its advantages are multifaceted, e.g., being generally compatible to various VLMs across understanding and generation, simple use without re-training and trivial engineering efforts. On multiple VLMs benchmarks, we fully experiment to demonstrate the good acceleration of Turbo, under negligible performance drop.
- Abstract(参考訳): VLM(Vision-Language Large Models)は、AIの主要なバックボーンとなっている。
しかし、彼らの高価な計算コスト、すなわちスループットと遅延は、現実世界のシナリオにおけるポテンシャルを妨げる。
VLMの加速を達成するために、既存の手法はプルーニング、蒸留、量子化といったモデルの観点から焦点を当てているが、データパースペクティブの冗長性は完全に見落としている。
本論文は,データ冗長性の深刻さを補うために,情報次数で案内されるプラグアンドプレイのTurboモジュールを設計し,視覚的・テキスト的データから非効率なトークンを抽出する。
効率性と性能のトレードオフを追求する上で、情報度は相互冗長性と意味値の2つの重要な要素を考慮に入れている。
具体的には、前者はシーケンシャルトークン間のデータ重複を評価し、後者は、各トークンが全体的な意味論への貢献によって評価する。
その結果、高い情報度を持つトークンは冗長性が低く、より強力な意味論をもたらす。
VLMの計算では、Turboはユーザフレンドリーなプラグインとして機能し、情報度を参照するデータをソートする。
その利点は多面的であり、例えば、理解と生成にまたがる様々なVLMと一般的に互換性があり、再トレーニングなしで簡単に使える。
複数のVLMベンチマークにおいて,我々はTurboの良好な加速を無視可能な性能低下下で完全に実証する実験を行った。
関連論文リスト
- Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - VILA$^2$: VILA Augmented VILA [69.5318347688297]
自己拡張ステップとスペシャリスト強化ステップを含む,単純で効果的なVLM拡張スキームを導入する。
3ラウンドの自己拡張ラウンドでデータ品質と下流精度の向上を観察する。
VLMの専門家は、空間、接地、OCRなどドメイン固有の専門家とともに自己拡張VLMから抽出し、タスク認識合成データを事前学習段階に融合させる。
論文 参考訳(メタデータ) (2024-07-24T17:37:05Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。
CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-15T15:43:52Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language
Models [25.856254802834375]
本稿では,データ冗長性の重大さを先導し,情報次数で案内される1つのプラグアンドプレイモジュールを設計し,視覚的・テキスト的データから非効率なトークンを創出する。
Turboはユーザーフレンドリーなプラグインとして機能し、情報次数を参照するデータをソートする。
論文 参考訳(メタデータ) (2023-12-12T16:27:35Z) - The first step is the hardest: Pitfalls of Representing and Tokenizing
Temporal Data for Large Language Models [10.414206635385632]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な一般化を実証している。
ウェアラブルや電子健康記録から得られたデータなど、数値データや時間データをこれらのモデルに入力する際に、顕著な障害が発生する。
モバイルヘルスセンシングなどの人間中心のタスクにLLMを用いた最近の研究について論じるとともに、一般的なLLMが時間データを誤ってトークン化していることを示すケーススタディを示す。
論文 参考訳(メタデータ) (2023-09-12T13:51:29Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - SmartTrim: Adaptive Tokens and Attention Pruning for Efficient
Vision-Language Models [35.5601603013045]
視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。
軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。
我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
論文 参考訳(メタデータ) (2023-05-24T11:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。