論文の概要: Data Metabolism: An Efficient Data Design Schema For Vision Language Model
- arxiv url: http://arxiv.org/abs/2504.12316v1
- Date: Thu, 10 Apr 2025 07:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 05:05:40.079478
- Title: Data Metabolism: An Efficient Data Design Schema For Vision Language Model
- Title(参考訳): データメタボリズム:ビジョン言語モデルのための効率的なデータ設計スキーマ
- Authors: Jingyuan Zhang, Hongzhi Zhang, Zhou Haonan, Chenxi Sun, Xingguang ji, Jiakang Wang, Fanheng Kong, Yahui Liu, Qi Wang, Fuzheng Zhang,
- Abstract要約: データキュレーションは、強力なビジュアル言語モデルのトレーニングにおいて重要な役割を果たす。
既存の巨大なデータセットを処理し、ユーザ固有のデータフライホイールを構築する方法を示します。
我々は、典型的なマルチモーダルタスクに優れる、Capybara-VLというVLMをリリースする。
- 参考スコア(独自算出の注目度): 19.12576323467089
- License:
- Abstract: Data curation plays a crucial role in training powerful Visual Language Models (VLMs). In this work, we introduce the concept of Data Metabolism and present our data-centric framework to build VLMs throughout the development lifecycle. Starting from a standard model architecture, we discuss and provide insights into two crucial development steps: data curation and iteration, forming a closed-loop system that continuously improves model performance. We show a detailed codebook on how to process existing massive datasets and build user-specific data flywheel. As a demonstration, we release a VLM, named Capybara-VL, which excels in typical multimodal tasks (e.g. , visual question answering, scientific reasoning, and text-rich tasks). Despite its relatively compact size, Capybara-VL surpasses several open-source models that are up to 10 times larger in size. Moreover, it achieves results that are on par with those of several leading proprietary models, demonstrating its remarkable competitiveness. These results highlight the power of our data-centric framework and the potential of training smaller and more efficient VLMs.
- Abstract(参考訳): データキュレーションは、強力なビジュアル言語モデル(VLM)のトレーニングにおいて重要な役割を果たす。
本稿では、データ代謝の概念を紹介し、開発ライフサイクル全体を通してVLMを構築するためのデータ中心のフレームワークを紹介します。
標準モデルアーキテクチャから始めて、データキュレーションと反復という2つの重要な開発ステップについて考察し、洞察を提供し、モデル性能を継続的に改善するクローズドループシステムを形成する。
既存の大量のデータセットを処理し、ユーザ固有のデータフライホイールを構築する方法について、詳細なコードブックを紹介します。
デモとして、典型的なマルチモーダルなタスク(例えば、視覚的質問応答、科学的推論、テキストリッチなタスク)に優れる、Capybara-VLというVLMをリリースする。
比較的コンパクトなサイズにもかかわらず、Capybara-VLは最大10倍の大きさのオープンソースモデルを数倍上回っている。
さらに、いくつかの主要なプロプライエタリモデルと同等の結果が得られ、その顕著な競争力を示している。
これらの結果は、私たちのデータ中心フレームワークのパワーと、より小さくより効率的なVLMをトレーニングする可能性を強調します。
関連論文リスト
- GIRAFFE: Design Choices for Extending the Context Length of Visual Language Models [20.976319536167512]
我々は、視覚言語モデルの長期的性能を高める効果的なソリューションを確立することを目指している。
本稿では, 有効長が128Kまで拡張されたジリンを提案する。
コード、データ、モデルをオープンソースにします。
論文 参考訳(メタデータ) (2024-12-17T09:57:21Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [35.85909368345219]
大規模マルチモーダル命令データセットであるInfinity-MMを導入する。
統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。
タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T09:03:48Z) - EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models [36.576853882830896]
我々はEvolveDirectorを導入し、公開リソースを使用した高度なモデルに匹敵するテキスト・画像生成モデルをトレーニングする。
このフレームワークは、公開APIを通じて高度なモデルと対話して、ベースモデルをトレーニングするためのテキストイメージデータペアを取得する。
我々は,事前学習された大規模視覚言語モデル(VLM)を活用し,基礎モデルの進化を導く。
論文 参考訳(メタデータ) (2024-10-09T17:52:28Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。