論文の概要: Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2312.06109v1
- Date: Mon, 11 Dec 2023 04:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:06:52.031434
- Title: Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
- Title(参考訳): Vary: 大きな視覚言語モデルのための視覚語彙のスケールアップ
- Authors: Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, Jinrong
Yang, Jianjian Sun, Chunrui Han, Xiangyu Zhang
- Abstract要約: 本稿では,LVLMの視覚語彙を効果的かつ効果的にスケールアップするVaryを提案する。
BLIP-2、MiniGPT4、LLaVAと比較すると、Varyはよりきめ細かい認識と理解能力を維持しつつ、バニラ能力を維持できる。
- 参考スコア(独自算出の注目度): 24.688203129568862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Large Vision-Language Models (LVLMs) enjoy the same vision vocabulary
-- CLIP, which can cover most common vision tasks. However, for some special
vision task that needs dense and fine-grained vision perception, e.g.,
document-level OCR or chart understanding, especially in non-English scenarios,
the CLIP-style vocabulary may encounter low efficiency in tokenizing the vision
knowledge and even suffer out-of-vocabulary problem. Accordingly, we propose
Vary, an efficient and effective method to scale up the vision vocabulary of
LVLMs. The procedures of Vary are naturally divided into two folds: the
generation and integration of a new vision vocabulary. In the first phase, we
devise a vocabulary network along with a tiny decoder-only transformer to
produce the desired vocabulary via autoregression. In the next, we scale up the
vanilla vision vocabulary by merging the new one with the original one (CLIP),
enabling the LVLMs can quickly garner new features. Compared to the popular
BLIP-2, MiniGPT4, and LLaVA, Vary can maintain its vanilla capabilities while
enjoying more excellent fine-grained perception and understanding ability.
Specifically, Vary is competent in new document parsing features (OCR or
markdown conversion) while achieving 78.2% ANLS in DocVQA and 36.2% in MMVet.
Our code will be publicly available on the homepage.
- Abstract(参考訳): 現代のLVLM(Large Vision-Language Models)は、最も一般的なビジョンタスクをカバーするCLIPと同じビジョン語彙を享受している。
しかし、例えば文書レベルのOCRやチャート理解のような、密できめ細かな視覚認識を必要とする特別な視覚タスク、特に非英語のシナリオでは、CLIPスタイルの語彙は、視覚知識のトークン化や語彙外問題に悩まされる。
そこで我々は,LVLMの視覚語彙を効果的かつ効果的にスケールアップするVaryを提案する。
ヴァリーの手続きは自然に2つの折り目に分けられる:新しい視覚語彙の生成と統合である。
第1フェーズでは,大小デコーダのみの変換器とともに語彙ネットワークを設計し,自動回帰により所望の語彙を生成する。
次に、新しいものとオリジナルのもの(clip)を組み合わせることで、バニラビジョンの語彙をスケールアップし、lvlmが新しい機能を素早く獲得できるようにします。
BLIP-2、MiniGPT4、LLaVAと比較すると、Varyはよりきめ細かい認識と理解能力を維持しつつ、バニラ能力を維持できる。
特に、variはdocvqaでは78.2%、mmvetでは36.2%、新しい文書解析機能(ocrまたはマークダウン変換)に適している。
私たちのコードはホームページで公開されます。
関連論文リスト
- Open Vocabulary Multi-Label Video Classification [45.722133656740446]
この問題をオープン語彙多ラベルビデオ分類として定式化し、CLIPなどの事前学習VLMを適用してこの問題を解決する方法を提案する。
本稿では,LLMにCLIPテキストエンコーダのソフト属性を生成して,新しいクラスを認識できるようにする,エンドツーエンドのトレーニング可能なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-12T07:53:54Z) - Small Language Model Meets with Reinforced Vision Vocabulary [23.5530783019396]
Vary-toyは、Qwen-1.8Bと共に、ベースとなる大きな言語モデルである。
Vary-toyでは、改良された視覚語彙を導入し、モデルがVaryのすべての特徴を持つだけでなく、より一般性も得るようにした。
実験では、Vary-toyはDocVQAで65.6%、ChartQAで59.1%、RefCOCOで88.1%、MMVetで29%を達成できる。
論文 参考訳(メタデータ) (2024-01-23T05:55:26Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - ICU: Conquering Language Barriers in Vision-and-Language Modeling by
Dividing the Tasks into Image Captioning and Language Understanding [1.9906814758497542]
ICUは、V&Lタスクを2段階に分割する: V&Lモデルが英語で画像キャプションを行い、マルチ言語モデル(mLM)がそのキャプションをaltテキストとして取り、言語間理解を行う。
ICUは5つの言語に対して新しい最先端の結果が得られ、残りの言語では同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-10-19T07:11:48Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Vision-Language Adaptive Mutual Decoder for OOV-STR [39.35424739459689]
我々は、VLAMD(Vision Language Adaptive Mutual Decoder)というフレームワークを設計し、OoV(out-of-vocabulary)問題に部分的に対処する。
提案手法は,ECCV 2022 TiE Workshop における OOV-ST Challenge の単語認識タスクにおいて, IV+OOV と OOV の設定に対して 70.31% と 59.61% の単語精度を達成した。
論文 参考訳(メタデータ) (2022-09-02T07:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。