論文の概要: ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2405.15738v1
- Date: Fri, 24 May 2024 17:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:01:17.383779
- Title: ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models
- Title(参考訳): ConvLLaVA: 大規模マルチモーダルモデルのためのビジュアルエンコーダとしての階層型バックボーン
- Authors: Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng,
- Abstract要約: 高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
- 参考スコア(独自算出の注目度): 77.59651787115546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution Large Multimodal Models (LMMs) encounter the challenges of excessive visual tokens and quadratic visual complexity. Current high-resolution LMMs address the quadratic complexity while still generating excessive visual tokens. However, the redundancy in visual tokens is the key problem as it leads to more substantial compute. To mitigate this issue, we propose ConvLLaVA, which employs ConvNeXt, a hierarchical backbone, as the visual encoder of LMM to replace Vision Transformer (ViT). ConvLLaVA compresses high-resolution images into information-rich visual features, effectively preventing the generation of excessive visual tokens. To enhance the capabilities of ConvLLaVA, we propose two critical optimizations. Since the low-resolution pretrained ConvNeXt underperforms when directly applied on high resolution, we update it to bridge the gap. Moreover, since ConvNeXt's original compression ratio is inadequate for much higher resolution inputs, we train a successive stage to further compress the visual tokens, thereby reducing redundancy. These optimizations enable ConvLLaVA to support inputs of 1536x1536 resolution generating only 576 visual tokens, capable of handling images of arbitrary aspect ratios. Experimental results demonstrate that our method achieves competitive performance with state-of-the-art models on mainstream benchmarks. The ConvLLaVA model series are publicly available at https://github.com/alibaba/conv-llava.
- Abstract(参考訳): 高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
現在の高解像度のLMMは、過度な視覚トークンを生成しながら二次的な複雑さに対処している。
しかし、視覚トークンの冗長性は、より実質的な計算につながるため、鍵となる問題である。
この問題を軽減するために,LMMの視覚エンコーダとして,階層的なバックボーンであるConvNeXtを用いて視覚変換器(ViT)を置き換えるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
ConvLLaVAの能力を高めるために,2つの重要な最適化を提案する。
高分解能に直接適用した場合、低分解能プレトレーニングのConvNeXtは性能が低下するため、ギャップを埋めるために更新する。
さらに、ConvNeXtの元々の圧縮比は、はるかに高解像度な入力には不十分であるため、視覚トークンをさらに圧縮するために連続的なステージを訓練し、冗長性を低減させる。
これらの最適化により、ConvLLaVAは、1536x1536解像度の入力をサポートし、任意のアスペクト比の画像を処理できる576の視覚トークンしか生成できない。
実験により,本手法は主流ベンチマーク上での最先端モデルとの競合性能を実証した。
ConvLLaVAモデルシリーズはhttps://github.com/alibaba/conv-llava.comで公開されている。
関連論文リスト
- FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers [59.325141146786805]
高解像度視覚入力はマルチモーダル大言語モデル (MLLM) と実世界のタスクに対する視覚知覚能力の強化を兼ね備えている。
既存の高解像度MLLMの多くは、画像を処理するためのトリミングベースのアプローチに依存しており、断片化された視覚符号化と冗長トークンの急激な増加につながっている。
FALCONは、ビジュアルエンコーディングの段階で冗長トークンを同時に除去する新しいビジュアルレジスタ技術を導入した。
FALCONは、目覚しい9倍、16倍の視覚トークンで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-01-27T18:36:10Z) - SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer [45.720721058671856]
SoftVQ-VAEは、ソフトカテゴリ後部を利用して複数のコードワードを各潜在トークンに集約する連続画像トークンである。
提案手法は,32または64個の1次元トークンを用いて256x256および512x512画像を圧縮する。
興味深いことに、SoftVQ-VAEは256x256画像を生成するために最大18倍の推論スループットを向上し、512x512画像に対して55倍である。
論文 参考訳(メタデータ) (2024-12-14T20:29:29Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。