論文の概要: Small Language Model Meets with Reinforced Vision Vocabulary
- arxiv url: http://arxiv.org/abs/2401.12503v1
- Date: Tue, 23 Jan 2024 05:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:43:00.224855
- Title: Small Language Model Meets with Reinforced Vision Vocabulary
- Title(参考訳): 視覚語彙を強化した小言語モデル
- Authors: Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, En Yu,
Jianjian Sun, Chunrui Han, Xiangyu Zhang
- Abstract要約: Vary-toyは、Qwen-1.8Bと共に、ベースとなる大きな言語モデルである。
Vary-toyでは、改良された視覚語彙を導入し、モデルがVaryのすべての特徴を持つだけでなく、より一般性も得るようにした。
実験では、Vary-toyはDocVQAで65.6%、ChartQAで59.1%、RefCOCOで88.1%、MMVetで29%を達成できる。
- 参考スコア(独自算出の注目度): 23.5530783019396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Playing Large Vision Language Models (LVLMs) in 2023 is trendy among the AI
community. However, the relatively large number of parameters (more than 7B) of
popular LVLMs makes it difficult to train and deploy on consumer GPUs,
discouraging many researchers with limited resources. Imagine how cool it would
be to experience all the features of current LVLMs on an old GTX1080ti (our
only game card). Accordingly, we present Vary-toy in this report, a small-size
Vary along with Qwen-1.8B as the base ``large'' language model. In Vary-toy, we
introduce an improved vision vocabulary, allowing the model to not only possess
all features of Vary but also gather more generality. Specifically, we replace
negative samples of natural images with positive sample data driven by object
detection in the procedure of generating vision vocabulary, more sufficiently
utilizing the capacity of the vocabulary network and enabling it to efficiently
encode visual information corresponding to natural objects. For experiments,
Vary-toy can achieve 65.6% ANLS on DocVQA, 59.1% accuracy on ChartQA, 88.1%
accuracy on RefCOCO, and 29% on MMVet. The code will be publicly available on
the homepage.
- Abstract(参考訳): 2023年にLVLM(Large Vision Language Models)をプレイすることは、AIコミュニティの間で流行している。
しかし、人気のあるLVLMの比較的多くのパラメータ(7B以上)は、コンシューマGPUのトレーニングとデプロイを困難にしており、限られたリソースを持つ多くの研究者を妨げている。
古いGTX1080ti(私たちの唯一のゲームカード)で、現在のLVLMのすべての機能を体験することがいかにクールか想像してみてほしい。
そこで,本稿では,Qwen-1.8Bとともに,小サイズのVaryであるVary-toyを言語モデルとして紹介する。
Vary-toyでは、改良された視覚語彙を導入し、モデルがVaryのすべての特徴を持つだけでなく、より一般性も得るようにした。
具体的には,視覚語彙の生成過程において,自然画像の負のサンプルを物体検出によって駆動される正のサンプルデータに置き換え,語彙ネットワークの容量を十分に活用し,自然物体に対応する視覚情報を効率的にエンコードできるようにする。
実験では、Vary-toyはDocVQAで65.6%、ChartQAで59.1%、RefCOCOで88.1%、MMVetで29%を達成できる。
コードはホームページで公開されている。
関連論文リスト
- NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples [79.82029431745612]
視覚自動モデル(VLM)は、人間が容易に答えられるような自然なイメージや疑問に苦戦している。
我々は,1万個の人間検証VQAサンプルを用いて,VLMを確実に評価するための新しいベンチマークであるNaturalBenchを提案する。
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, および GPT-4o lag の 50%-70% 遅れ(90%以上)を示した。
論文 参考訳(メタデータ) (2024-10-18T17:58:21Z) - Do better language models have crisper vision? [23.884532179063733]
テキストのみのLarge Language Models (LLMs)は、ビジュアル世界をどのように把握するか?
本稿では,ビジュアルワールドに適合する言語モデルを実現するキープロパティを分離するためのVisual Text Representation Benchmark (ViTeRB)を提案する。
これらの知見に基づいて,超軽量CLIP様モデルであるShareLockを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:33Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - ViTamin: Designing Scalable Vision Models in the Vision-Language Era [26.878662961209997]
Vision Transformer (ViTs) は、イメージエンコーダのデフォルトの選択肢である。
ViTamin-Lは、ViT-Lを2.0%画像ネットゼロショット精度で大幅に上回る。
436万のパラメータしか持たないViTamin-XLは、82.9%のImageNetゼロショット精度を実現している。
論文 参考訳(メタデータ) (2024-04-02T17:40:29Z) - The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。
ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文 参考訳(メタデータ) (2024-01-23T01:25:00Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models [24.688203129568862]
本稿では,LVLMの視覚語彙を効果的かつ効果的にスケールアップするVaryを提案する。
BLIP-2、MiniGPT4、LLaVAと比較すると、Varyはよりきめ細かい認識と理解能力を維持しつつ、バニラ能力を維持できる。
論文 参考訳(メタデータ) (2023-12-11T04:26:17Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Scaling Up Vision-Language Pre-training for Image Captioning [51.639880603821446]
画像キャプション用LargEスケールiMageカプティオナーであるLEMONについて紹介する。
いくつかの主要な画像キャプションベンチマークにおいて,LEMONが新たな芸術性を達成することを示す。
論文 参考訳(メタデータ) (2021-11-24T02:30:22Z) - A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2021-10-16T06:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。