Fugu-MT 論文翻訳(概要): How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

論文の概要: How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

arxiv url: http://arxiv.org/abs/2404.16821v1
Date: Thu, 25 Apr 2024 17:59:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 12:51:20.189569
Title: How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
Title（参考訳）: GPT-4Vはどこまであるのか?オープンソース・スイートによる商用マルチモーダルモデルへのギャップを埋める
Authors: Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao,
Abstract要約: InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
参考スコア（独自算出の注目度）: 95.71317949866707
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this report, we introduce InternVL 1.5, an open-source multimodal large language model (MLLM) to bridge the capability gap between open-source and proprietary commercial models in multimodal understanding. We introduce three simple improvements: (1) Strong Vision Encoder: we explored a continuous learning strategy for the large-scale vision foundation model -- InternViT-6B, boosting its visual understanding capabilities, and making it can be transferred and reused in different LLMs. (2) Dynamic High-Resolution: we divide images into tiles ranging from 1 to 40 of 448$\times$448 pixels according to the aspect ratio and resolution of the input images, which supports up to 4K resolution input. (3) High-Quality Bilingual Dataset: we carefully collected a high-quality bilingual dataset that covers common scenes, document images, and annotated them with English and Chinese question-answer pairs, significantly enhancing performance in OCR- and Chinese-related tasks. We evaluate InternVL 1.5 through a series of benchmarks and comparative studies. Compared to both open-source and proprietary models, InternVL 1.5 shows competitive performance, achieving state-of-the-art results in 8 of 18 benchmarks. Code has been released at https://github.com/OpenGVLab/InternVL.
Abstract（参考訳）: 本稿では,オープンソースのマルチモーダル言語モデル(MLLM)であるInternVL 1.5を紹介する。 1)Strong Vision Encoder: 大規模ビジョンファウンデーションモデルのための継続的学習戦略を探求し、InternViT-6Bを導入し、視覚的理解能力を向上し、異なるLLMで転送および再利用できるようにする。 2)動的高解像度化:最大4K解像度入力をサポートする入力画像のアスペクト比と解像度に応じて、448$\times$448ピクセルのうち1～40ピクセルのタイルに分割する。ハイクオリティバイリンガルデータセット: 共通場面, 文書画像, 注釈を英語と中国語の問合せペアで収集し, OCRおよび中国語に関連するタスクのパフォーマンスを大幅に向上させた。 InternVL 1.5を一連のベンチマークと比較研究により評価した。オープンソースモデルとプロプライエタリモデルの両方と比較して、InternVL 1.5は競争力のあるパフォーマンスを示し、18ベンチマーク中8ベンチマークで最先端の結果を達成した。コードはhttps://github.com/OpenGVLab/InternVLでリリースされた。

関連論文リスト

Seed1.5-VL Technical Report [237.80875144753307]
Seed1.5-VLは、汎用マルチモーダル理解と推論を促進するために設計されたビジョン言語基盤モデルである。幅広いパブリックなVLMベンチマークと内部評価スイートで強力なパフォーマンスを提供する。 GUI制御やゲームプレイといったエージェント中心のタスクでは、Seed1.5-VLはOpenAI CUAやClaude 3.7など、主要なマルチモーダルシステムより優れている。
論文参考訳（メタデータ） (2025-05-11T17:28:30Z)
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs [36.76252153495239]
IV-Benchは、Image-Grounded Video Perception and Reasoningを評価するための最初の包括的なベンチマークである。 IV-Benchは、13のタスクにわたる2,585の微妙な注釈付き画像テキストクエリと組み合わせた967のビデオで構成されている。
論文参考訳（メタデータ） (2025-04-21T19:53:44Z)
POINTS1.5: Building a Vision-Language Model towards Real World Applications [33.53291443466257]
実世界の様々な応用に優れた新しい視覚言語モデルPOINTS1.5を導入する。画像解像度が固定されたオリジナルのCLIPビジョンエンコーダを、ネイティブな動的高解像度をサポートするNaViTスタイルのビジョンエンコーダに置き換える。我々はPOINTS1.5にバイリンガルサポートを追加し、中国語の能力を大幅に強化した。
論文参考訳（メタデータ） (2024-12-11T15:08:25Z)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文参考訳（メタデータ） (2024-06-18T16:02:18Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-31T17:59:47Z)
GAOKAO-MM: A Chinese Human-Level Benchmark for Multimodal Models Evaluation [55.2480439325792]
LVLM(Large Vision-Language Models)は画像認識と言語理解に優れた能力を示す。中国大学入学試験(GAokao-MM)に基づくマルチモーダルベンチマークであるGAokao-MMを提案する。 GPT-4-Vison(48.1%)、Qwen-VL-Plus(41.2%)、Gemini-Pro-Vision(35.1%)が上位3位である。
論文参考訳（メタデータ） (2024-02-24T06:57:15Z)
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文参考訳（メタデータ） (2022-03-12T09:33:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。