Fugu-MT 論文翻訳(概要): H2OVL-Mississippi Vision Language Models Technical Report

論文の概要: H2OVL-Mississippi Vision Language Models Technical Report

arxiv url: http://arxiv.org/abs/2410.13611v1
Date: Thu, 17 Oct 2024 14:46:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.964401
Title: H2OVL-Mississippi Vision Language Models Technical Report
Title（参考訳）: H2OVL-Mississippi Vision Language Models Technical Reports
Authors: Shaikat Galib, Shanshan Wang, Guanshuo Xu, Pascal Pfeiffer, Ryan Chesler, Mark Landry, Sri Satish Ambati,
Abstract要約: H2OVL-Mississippiは3700万の画像テキスト対で訓練された2組の視覚言語モデルである。 H2OVL-Mississippi-0.8Bは、テキスト認識に特化した0.8億のパラメータを持つ小さなモデルである。 H2OVL-Mississippi-2Bは、一般的なユースケースのための20億のパラメータモデルであり、非常に競争力のある指標を示しています。
参考スコア（独自算出の注目度）: 4.070560738863018
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Smaller vision-language models (VLMs) are becoming increasingly important for privacy-focused, on-device applications due to their ability to run efficiently on consumer hardware for processing enterprise commercial documents and images. These models require strong language understanding and visual capabilities to enhance human-machine interaction. To address this need, we present H2OVL-Mississippi, a pair of small VLMs trained on 37 million image-text pairs using 240 hours of compute on 8 x H100 GPUs. H2OVL-Mississippi-0.8B is a tiny model with 0.8 billion parameters that specializes in text recognition, achieving state of the art performance on the Text Recognition portion of OCRBench and surpassing much larger models in this area. Additionally, we are releasing H2OVL-Mississippi-2B, a 2 billion parameter model for general use cases, exhibiting highly competitive metrics across various academic benchmarks. Both models build upon our prior work with H2O-Danube language models, extending their capabilities into the visual domain. We release them under the Apache 2.0 license, making VLMs accessible to everyone, democratizing document AI and visual LLMs.
Abstract（参考訳）: エンタープライズ向け商用文書や画像を処理するためのコンシューマハードウェア上で効率的に動作するため、プライバシを重視したオンデバイスアプリケーションでは、より小さなビジョン言語モデル(VLM)がますます重要になっている。これらのモデルは、人間と機械の相互作用を強化するために、強力な言語理解と視覚能力を必要とする。 H2OVL-Mississippiは8 x H100 GPU上で240時間計算を行い、3700万の画像テキストペアでトレーニングされた小さなVLMのペアである。 H2OVL-Mississippi-0.8Bは、テキスト認識を専門とする0.8億のパラメータを持つ小さなモデルであり、OCRBenchのテキスト認識部で最先端のパフォーマンスを実現し、この分野においてはるかに大きなモデルを上回っている。さらに,H2OVL-Mississippi-2Bは一般のユースケースに対して20億のパラメータモデルであり,様々な学術ベンチマークで高い競合指標を示す。どちらのモデルも、H2O-Danube言語モデルによる以前の作業に基づいて構築されており、その能力をビジュアルドメインに拡張しています。私たちはこれらをApache 2.0ライセンスでリリースし、VLMを誰でもアクセスできるようにし、ドキュメントAIとビジュアルLLMを民主化しています。

関連論文リスト

A Survey on Efficient Vision-Language Models [0.6597195879147555]
視覚言語モデル(VLM)は視覚情報とテキスト情報を統合し、画像キャプションや視覚的質問応答などの幅広いアプリケーションを可能にする。リアルタイムアプリケーションには高い計算要求が課題となる。これにより、効率的な視覚言語モデルの開発に焦点が当てられている。
論文参考訳（メタデータ） (2025-04-13T21:12:24Z)
Improved Alignment of Modalities in Large Vision Language Models [1.4561960744147884]
本稿では,自動回帰視覚言語モデルの学習戦略を提案する。視覚モデルを言語モデルと整合させるための4つの訓練段階を提案する。また、トランスフォーマーベースの言語モデルをトレーニングするための異なる注意マスクも考案した。
論文参考訳（メタデータ） (2025-03-25T09:59:46Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。 1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model [7.082567506213992]
本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。コンシューマGPUサーバへの効率的なデプロイのために設計されている。
論文参考訳（メタデータ） (2024-05-15T09:47:59Z)
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文参考訳（メタデータ） (2024-04-25T17:59:19Z)
MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文参考訳（メタデータ） (2023-12-28T08:21:24Z)
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones [18.954681684239358]
本稿では,様々な視覚言語タスクを対象とした効率的なトレーニングと推論を目的とした,オープンソースのMLLMであるTinyGPT-Vを紹介する。言語モデル280億のパラメータで、TinyGPT-VはVQAと画像推論タスクにおいて、より大きなパラメータに匹敵する結果を達成している。
論文参考訳（メタデータ） (2023-12-28T07:11:41Z)
YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (2023-12-22T17:34:47Z)
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。強力な視覚能力を備え、ViT-22Bの代替となる。
論文参考訳（メタデータ） (2023-12-21T18:59:31Z)
V$^2$L: Leveraging Vision and Vision-language Models into Large-scale Product Retrieval [32.28772179053869]
本稿では,eBay eProduct Visual Search Challenge (FGVC9)における第1位ソリューションについて紹介する。視覚モデルと視覚言語モデルを組み合わせることで、その相補性から特別なメリットが得られ、私たちの優位性にとって重要な要素であることが示される。
論文参考訳（メタデータ） (2022-07-26T15:53:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。