論文の概要: Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2312.07408v1
- Date: Tue, 12 Dec 2023 16:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:13:39.964454
- Title: Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language
Models
- Title(参考訳): turbo: 視覚言語モデルのためのインフォマティクス駆動アクセラレーションプラグイン
- Authors: Chen Ju, Haicheng Wang, Zeqian Li, Xu Chen, Zhonghua Zhai, Weilin
Huang, Shuai Xiao
- Abstract要約: 本稿では,データ冗長性の重大さを先導し,情報次数で案内される1つのプラグアンドプレイモジュールを設計し,視覚的・テキスト的データから非効率なトークンを創出する。
Turboはユーザーフレンドリーなプラグインとして機能し、情報次数を参照するデータをソートする。
- 参考スコア(独自算出の注目度): 25.856254802834375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Large Models (VLMs) have become primary backbone of AI, due
to the impressive performance. However, their expensive computation costs,
i.e., throughput and delay, impede potentials in real-world scenarios. To
achieve acceleration for VLMs, most existing methods focus on the model
perspective: pruning, distillation, quantification, but completely overlook the
data-perspective redundancy. To fill the overlook, this paper pioneers the
severity of data redundancy, and designs one plug-and-play Turbo module guided
by information degree to prune inefficient tokens from visual or textual data.
In pursuit of efficiency-performance trade-offs, information degree takes two
key factors into consideration: mutual redundancy and semantic value.
Concretely, the former evaluates the data duplication between sequential
tokens; while the latter evaluates each token by its contribution to the
overall semantics. As a result, tokens with high information degree carry less
redundancy and stronger semantics. For VLMs' calculation, Turbo works as a
user-friendly plug-in that sorts data referring to information degree,
utilizing only top-level ones to save costs. Its advantages are multifaceted,
e.g., being generally compatible to various VLMs across understanding and
generation, simple use without retraining and trivial engineering efforts. On
multiple public VLMs benchmarks, we conduct extensive experiments to reveal the
gratifying acceleration of Turbo, under negligible performance drop.
- Abstract(参考訳): VLM(Vision-Language Large Models)は、AIの主要なバックボーンとなっている。
しかし、彼らの高価な計算コスト、すなわちスループットと遅延は、現実世界のシナリオにおけるポテンシャルを妨げる。
VLMの加速を達成するために、既存の手法はプルーニング、蒸留、定量化といったモデルの観点から焦点を当てているが、データパースペクティブの冗長性は完全に見落としている。
本論文は,データ冗長性の深刻さを補うために,情報次数で案内されるプラグアンドプレイのTurboモジュールを設計し,視覚的・テキスト的データから非効率なトークンを抽出する。
効率性能トレードオフの追求において、情報度は相互冗長性と意味値の2つの重要な要素を考慮に入れている。
具体的には、前者はシーケンシャルトークン間のデータの重複を評価し、後者は全体的なセマンティクスへの貢献によって各トークンを評価する。
その結果、情報度の高いトークンは冗長性が低く、セマンティクスが強くなる。
VLMの計算では、Turboはユーザフレンドリーなプラグインとして機能し、情報度を参照するデータをソートする。
その利点は多面的であり、例えば、理解と生成にまたがる様々なVLMと概して互換性があり、再訓練なしに単純な使用が可能であり、自明なエンジニアリング努力である。
複数のvlmsベンチマークにおいて,性能低下下でターボの満足度を高めるための広範囲な実験を行った。
関連論文リスト
- Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - VILA$^2$: VILA Augmented VILA [69.5318347688297]
自己拡張ステップとスペシャリスト強化ステップを含む,単純で効果的なVLM拡張スキームを導入する。
3ラウンドの自己拡張ラウンドでデータ品質と下流精度の向上を観察する。
VLMの専門家は、空間、接地、OCRなどドメイン固有の専門家とともに自己拡張VLMから抽出し、タスク認識合成データを事前学習段階に融合させる。
論文 参考訳(メタデータ) (2024-07-24T17:37:05Z) - Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Large Models [31.08312208507481]
Turboは、情報次数を参照するデータをソートするプラグインで、トップレベルのデータだけを使ってコストを節約する。
複数のVLMベンチマークにおいて,我々はTurboの良好な加速を無視可能な性能低下下で完全に実証する実験を行った。
論文 参考訳(メタデータ) (2024-07-16T13:35:26Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。
CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-15T15:43:52Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - The first step is the hardest: Pitfalls of Representing and Tokenizing
Temporal Data for Large Language Models [10.414206635385632]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な一般化を実証している。
ウェアラブルや電子健康記録から得られたデータなど、数値データや時間データをこれらのモデルに入力する際に、顕著な障害が発生する。
モバイルヘルスセンシングなどの人間中心のタスクにLLMを用いた最近の研究について論じるとともに、一般的なLLMが時間データを誤ってトークン化していることを示すケーススタディを示す。
論文 参考訳(メタデータ) (2023-09-12T13:51:29Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - SmartTrim: Adaptive Tokens and Attention Pruning for Efficient
Vision-Language Models [35.5601603013045]
視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。
軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。
我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
論文 参考訳(メタデータ) (2023-05-24T11:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。