論文の概要: DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs
- arxiv url: http://arxiv.org/abs/2406.04334v1
- Date: Thu, 6 Jun 2024 17:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:11:04.291004
- Title: DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs
- Title(参考訳): DeepStack: Visual Tokensのスタック化は驚くほどシンプルで、LMMに有効
- Authors: Lingchen Meng, Jianwei Yang, Rui Tian, Xiyang Dai, Zuxuan Wu, Jianfeng Gao, Yu-Gang Jiang,
- Abstract要約: ほとんどの大きなマルチモーダルモデル(LMM)は、大きな言語モデル(LLM)の第1層にシーケンスとして視覚トークンを供給することによって実装される。
本稿では,LMMのための新しいアーキテクチャであるDeepStackについて述べる。LMMの言語層とビジョントランスフォーマーの$N$レイヤを考慮すると,視覚トークンを$N$グループに積み上げ,各グループを下位から上位までの整列トランスフォーマー層に供給する。
驚くべきことに、この単純な手法は、レイヤ間の視覚トークン間の相互作用をモデル化するLMMのパワーを、最小限のコストで大幅に向上させる。
- 参考スコア(独自算出の注目度): 137.91216976536506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most large multimodal models (LMMs) are implemented by feeding visual tokens as a sequence into the first layer of a large language model (LLM). The resulting architecture is simple but significantly increases computation and memory costs, as it has to handle a large number of additional tokens in its input layer. This paper presents a new architecture DeepStack for LMMs. Considering $N$ layers in the language and vision transformer of LMMs, we stack the visual tokens into $N$ groups and feed each group to its aligned transformer layer \textit{from bottom to top}. Surprisingly, this simple method greatly enhances the power of LMMs to model interactions among visual tokens across layers but with minimal additional cost. We apply DeepStack to both language and vision transformer in LMMs, and validate the effectiveness of DeepStack LMMs with extensive empirical results. Using the same context length, our DeepStack 7B and 13B parameters surpass their counterparts by \textbf{2.7} and \textbf{2.9} on average across \textbf{9} benchmarks, respectively. Using only one-fifth of the context length, DeepStack rivals closely to the counterparts that use the full context length. These gains are particularly pronounced on high-resolution tasks, e.g., \textbf{4.2}, \textbf{11.0}, and \textbf{4.0} improvements on TextVQA, DocVQA, and InfoVQA compared to LLaVA-1.5-7B, respectively. We further apply DeepStack to vision transformer layers, which brings us a similar amount of improvements, \textbf{3.8} on average compared with LLaVA-1.5-7B.
- Abstract(参考訳): ほとんどの大規模マルチモーダルモデル(LMM)は、大きな言語モデル(LLM)の第1層にシーケンスとして視覚トークンを供給することによって実装される。
結果のアーキテクチャは単純だが、入力層に多数のトークンを処理しなければならないため、計算とメモリコストが大幅に向上する。
本稿では,LMMのための新しいアーキテクチャであるDeepStackを提案する。
LMMの言語とヴィジュアルトランスフォーマーの$N$レイヤを考慮すると、視覚トークンを$N$グループに積み上げ、各グループをその整列トランスフォーマー層 \textit{from bottom to top} にフィードする。
驚くべきことに、この単純な手法は、レイヤ間の視覚トークン間の相互作用をモデル化するLMMのパワーを、最小限のコストで大幅に向上させる。
We apply DeepStack to both language and vision transformer in LMMs, and whether the effective of DeepStack LMMs with extensive empirical results。
同じコンテキスト長を用いて、私たちのDeepStack 7B と 13B のパラメータは、それぞれ \textbf{2.7} と \textbf{2.9} のベンチマークでそれぞれ平均してそれを上回る。
コンテキスト長の5分の1しか使用していないDeepStackは、完全なコンテキスト長を使用するコンテクストと密接に競合する。
これらの利得は、LLaVA-1.5-7Bと比較して、TextVQA、DocVQA、InfoVQAの高分解能なタスク、例えば、 \textbf{4.2}、 \textbf{11.0}、 \textbf{4.0} で特に顕著である。
我々はさらに、DeepStackを視覚トランスフォーマー層に適用し、LLaVA-1.5-7Bと比較して、同様の量の改善を実現している。
関連論文リスト
- TokenPacker: Efficient Visual Projector for Multimodal LLM [20.915458668081353]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。
本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。
我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-02T16:10:55Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
たとえば、$textitO$2(未使用のスケーラビリティ)については、$G_textstack$はスケーラブルで、一貫してパフォーマンスが良いことを示す。
さらに、$G_textstack$に対する成長タイミングと成長係数を決定するガイドラインを定式化することで、$textitO$3(経験的ガイドラインの欠如)に対処する。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。
我々のVTWアプローチは、様々なマルチモーダルタスクにおいて、計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Approximating Two-Layer Feedforward Networks for Efficient Transformers [15.793406740545024]
製品キーメモリ(PKM)を含む2層NNを近似する様々な手法を統合する汎用フレームワークを提案する。
WikiText-103とenwiki8の両方のデータセットで2つの異なるスケールで、当社のMoEがTransformer-XLと競合していることが示されています。
このことは、MoE が極めて大きな LM だけでなく、資源効率の高い LM にも関係していることを示している。
論文 参考訳(メタデータ) (2023-10-16T21:23:16Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - Joint Prompt Optimization of Stacked LLMs using Variational Inference [66.04409787899583]
大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。
そのような2つのレイヤを積み重ねて1つのレイヤの出力を次のレイヤに供給することで、Deep Language Network(DLN)を得る。
DLN-2は単一層よりも高い性能に到達できることを示し、GPT-4に匹敵する性能に達することを約束する。
論文 参考訳(メタデータ) (2023-06-21T18:45:56Z) - AMOM: Adaptive Masking over Masking for Conditional Masked Language
Model [81.55294354206923]
条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。
本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。
提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-03-13T20:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。