論文の概要: POINTS1.5: Building a Vision-Language Model towards Real World Applications
- arxiv url: http://arxiv.org/abs/2412.08443v1
- Date: Wed, 11 Dec 2024 15:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:01:20.937830
- Title: POINTS1.5: Building a Vision-Language Model towards Real World Applications
- Title(参考訳): POINTS1.5: 実世界のアプリケーションに向けたビジョンランゲージモデルの構築
- Authors: Yuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou,
- Abstract要約: 実世界の様々な応用に優れた新しい視覚言語モデルPOINTS1.5を導入する。
画像解像度が固定されたオリジナルのCLIPビジョンエンコーダを、ネイティブな動的高解像度をサポートするNaViTスタイルのビジョンエンコーダに置き換える。
我々はPOINTS1.5にバイリンガルサポートを追加し、中国語の能力を大幅に強化した。
- 参考スコア(独自算出の注目度): 33.53291443466257
- License:
- Abstract: Vision-language models have made significant strides recently, demonstrating superior performance across a range of tasks, e.g. optical character recognition and complex diagram analysis. Building on this trend, we introduce a new vision-language model, POINTS1.5, designed to excel in various real-world applications. POINTS1.5 is an enhancement of POINTS1.0 and incorporates several key innovations: i) We replace the original CLIP vision encoder, which had a fixed image resolution, with a NaViT-style vision encoder that supports native dynamic high resolution. This allows POINTS1.5 to process images of any resolution without needing to split them into tiles. ii) We add bilingual support to POINTS1.5, significantly enhancing its capability in Chinese. Due to the scarcity of open-source Chinese datasets for vision-language models, we collect numerous images from the Internet and annotate them using a combination of manual and automatic methods. iii) We propose a set of rigorous filtering methods for visual instruction tuning datasets. We comprehensively evaluate all these filtering methods, and choose the most effective ones to obtain the final visual instruction tuning set. Thanks to these innovations, POINTS1.5 significantly outperforms POINTS1.0 and demonstrates strong performance across a range of real-world applications. Notably, POINTS1.5-7B is trained on fewer than 4 billion tokens and ranks first on the OpenCompass leaderboard among models with fewer than 10 billion parameters
- Abstract(参考訳): 視覚言語モデルは近年大きく進歩し、光学的文字認識や複雑な図形解析など、様々なタスクにおいて優れた性能を示している。
この傾向に基づいて,様々な実世界のアプリケーションに優れた視覚言語モデルPOINTS1.5を導入する。
POINTS1.5はPOINTS1.0の拡張であり、いくつかの重要なイノベーションを取り入れている。
i) 画像解像度が固定されたオリジナルのCLIPビジョンエンコーダを、ネイティブな動的高解像度をサポートするNaViTスタイルのビジョンエンコーダに置き換える。
これにより、POINTS1.5は解像度の画像をタイルに分割することなく処理できる。
ii)POINTS1.5にバイリンガルサポートを追加し,中国語の能力を大幅に向上させた。
視覚言語モデルのためのオープンソースの中国語データセットが不足しているため、インターネットから多数の画像を収集し、手動と自動の手法を組み合わせて注釈付けします。
三 視覚的インストラクションチューニングデータセットのための厳密なフィルタリング手法を提案する。
我々はこれら全てのフィルタリング手法を包括的に評価し、最終的な視覚的インストラクションチューニングセットを得るのに最も効果的なものを選択する。
これらのイノベーションのおかげで、POINTS1.5はPOINTS1.0を著しく上回り、様々な現実世界のアプリケーションで強力なパフォーマンスを示している。
特に、POINTS1.5-7Bは40億トークン未満で訓練されており、100億パラメータ未満のモデルのうち、OpenCompassのリーダーボードにランクインしている。
関連論文リスト
- MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning [74.34171839925114]
MLLM(Multimodal large language model)の新しいファミリーであるMM1.5を提案する。
我々のモデルは1Bから30Bのパラメータで、密度と混合スペクトル(MoE)の両方を含む。
最終設計を知らせるトレーニングプロセスと決定について、詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-30T17:59:34Z) - LowCLIP: Adapting the CLIP Model Architecture for Low-Resource Languages in Multimodal Image Retrieval Task [0.0]
本研究では,低リソース言語,特にアゼルバイジャン語における画像検索のための視覚言語モデルの開発について検討する。
計算効率と性能のバランスをとるために,CLIPモデルアーキテクチャを統合した。
私たちの研究では、EfficientNet0やTiny Swin Transformerといったモデルが、トレーニングしたデータセット上で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-25T18:10:16Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。
マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文 参考訳(メタデータ) (2024-04-25T17:59:19Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - SVIT: Scaling up Visual Instruction Tuning [26.794950789335402]
我々は,会話質問応答(QA)ペアの1.6M,QAペアの1.6M,QAペアの1.0M,詳細な画像記述の106Kを含む4200万の視覚的インストラクションチューニングデータを構築した。
実験では、提案したデータセットに基づいてトレーニングされたSVIT-v1.5が、一般的なベンチマークで最先端のマルチモーダル大規模言語モデルを上回っていることを確認した。
論文 参考訳(メタデータ) (2023-07-09T03:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。