論文の概要: H2OVL-Mississippi Vision Language Models Technical Report
- arxiv url: http://arxiv.org/abs/2410.13611v1
- Date: Thu, 17 Oct 2024 14:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:23:16.769221
- Title: H2OVL-Mississippi Vision Language Models Technical Report
- Title(参考訳): H2OVL-Mississippi Vision Language Models Technical Reports
- Authors: Shaikat Galib, Shanshan Wang, Guanshuo Xu, Pascal Pfeiffer, Ryan Chesler, Mark Landry, Sri Satish Ambati,
- Abstract要約: H2OVL-Mississippiは3700万の画像テキスト対で訓練された2組の視覚言語モデルである。
H2OVL-Mississippi-0.8Bは、テキスト認識に特化した0.8億のパラメータを持つ小さなモデルである。
H2OVL-Mississippi-2Bは、一般的なユースケースのための20億のパラメータモデルであり、非常に競争力のある指標を示しています。
- 参考スコア(独自算出の注目度): 4.070560738863018
- License:
- Abstract: Smaller vision-language models (VLMs) are becoming increasingly important for privacy-focused, on-device applications due to their ability to run efficiently on consumer hardware for processing enterprise commercial documents and images. These models require strong language understanding and visual capabilities to enhance human-machine interaction. To address this need, we present H2OVL-Mississippi, a pair of small VLMs trained on 37 million image-text pairs using 240 hours of compute on 8 x H100 GPUs. H2OVL-Mississippi-0.8B is a tiny model with 0.8 billion parameters that specializes in text recognition, achieving state of the art performance on the Text Recognition portion of OCRBench and surpassing much larger models in this area. Additionally, we are releasing H2OVL-Mississippi-2B, a 2 billion parameter model for general use cases, exhibiting highly competitive metrics across various academic benchmarks. Both models build upon our prior work with H2O-Danube language models, extending their capabilities into the visual domain. We release them under the Apache 2.0 license, making VLMs accessible to everyone, democratizing document AI and visual LLMs.
- Abstract(参考訳): エンタープライズ向け商用文書や画像を処理するためのコンシューマハードウェア上で効率的に動作するため、プライバシを重視したオンデバイスアプリケーションでは、より小さなビジョン言語モデル(VLM)がますます重要になっている。
これらのモデルは、人間と機械の相互作用を強化するために、強力な言語理解と視覚能力を必要とする。
H2OVL-Mississippiは8 x H100 GPU上で240時間計算を行い、3700万の画像テキストペアでトレーニングされた小さなVLMのペアである。
H2OVL-Mississippi-0.8Bは、テキスト認識を専門とする0.8億のパラメータを持つ小さなモデルであり、OCRBenchのテキスト認識部で最先端のパフォーマンスを実現し、この分野においてはるかに大きなモデルを上回っている。
さらに,H2OVL-Mississippi-2Bは一般のユースケースに対して20億のパラメータモデルであり,様々な学術ベンチマークで高い競合指標を示す。
どちらのモデルも、H2O-Danube言語モデルによる以前の作業に基づいて構築されており、その能力をビジュアルドメインに拡張しています。
私たちはこれらをApache 2.0ライセンスでリリースし、VLMを誰でもアクセスできるようにし、ドキュメントAIとビジュアルLLMを民主化しています。
関連論文リスト
- Liquid: Language Models are Scalable Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model [7.082567506213992]
本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。
コンシューマGPUサーバへの効率的なデプロイのために設計されている。
論文 参考訳(メタデータ) (2024-05-15T09:47:59Z) - How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。
マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文 参考訳(メタデータ) (2024-04-25T17:59:19Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - V$^2$L: Leveraging Vision and Vision-language Models into Large-scale
Product Retrieval [32.28772179053869]
本稿では,eBay eProduct Visual Search Challenge (FGVC9)における第1位ソリューションについて紹介する。
視覚モデルと視覚言語モデルを組み合わせることで、その相補性から特別なメリットが得られ、私たちの優位性にとって重要な要素であることが示される。
論文 参考訳(メタデータ) (2022-07-26T15:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。