論文の概要: Eagle 2: Building Post-Training Data Strategies from Scratch for Frontier Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.14818v1
- Date: Mon, 20 Jan 2025 18:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-02 07:52:49.283896
- Title: Eagle 2: Building Post-Training Data Strategies from Scratch for Frontier Vision-Language Models
- Title(参考訳): Eagle 2:フロンティアビジョンランゲージモデルのためのスクラッチからトレーニング後のデータストラテジーを構築する
- Authors: Zhiqi Li, Guo Chen, Shilong Liu, Shihao Wang, Vibashan VS, Yishen Ji, Shiyi Lan, Hao Zhang, Yilin Zhao, Subhashree Radhakrishnan, Nadine Chang, Karan Sapra, Amala Sanjay Deshmukh, Tuomas Rintamaki, Matthieu Le, Ilia Karmanov, Lukas Voegtle, Philipp Fischer, De-An Huang, Timo Roman, Tong Lu, Jose M. Alvarez, Bryan Catanzaro, Jan Kautz, Andrew Tao, Guilin Liu, Zhiding Yu,
- Abstract要約: ほとんどのオープンソースのビジョン言語モデルは、最終的なモデルウェイトのみを公開しており、データ戦略と実装に関する重要な詳細は、ほとんど不透明である。
本稿では,フロンティアVLMの開発におけるデータ戦略の重要な役割を示すとともに,データ中心の観点からのVLMポストトレーニングに対処する。
トレーニング後のデータ戦略をゼロから研究し、構築することで、私たちは開発プロセスに関する詳細な洞察を共有し、オープンソースコミュニティのための競争モデルの開発に役立てることを目指しています。
- 参考スコア(独自算出の注目度): 90.46966584238682
- License:
- Abstract: Recently, promising progress has been made by open-source vision-language models (VLMs) in bringing their capabilities closer to those of proprietary frontier models. However, most open-source models only publish their final model weights, leaving the critical details of data strategies and implementation largely opaque. In this work, we address VLM post-training from a data-centric perspective, showing the key role of data strategy in developing frontier VLMs. By studying and building our post-training data strategy from scratch, we share detailed insights into the development processes, aiming to benefit the development of competitive models for the open-source community. Our introduced data strategy, together with training recipes and model design, leads to a family of performant VLMs named Eagle2. Specifically, Eagle2-9B achieves state-of-the-art results across various multimodal benchmarks, matching certain competitive models with up to 70B parameters.
- Abstract(参考訳): 最近では、オープンソースのビジョン言語モデル(VLM)によって、プロプライエタリなフロンティアモデルに近い機能を実現している。
しかし、ほとんどのオープンソースモデルは最終モデルの重みのみを公開しており、データ戦略と実装に関する重要な詳細はほとんど不透明である。
本稿では,フロンティアVLMの開発におけるデータ戦略の重要な役割を示すとともに,データ中心の観点からのVLMポストトレーニングに対処する。
トレーニング後のデータ戦略をゼロから研究し、構築することで、私たちは開発プロセスに関する詳細な洞察を共有し、オープンソースコミュニティのための競争モデルの開発に役立てることを目指しています。
我々が導入したデータ戦略は、トレーニングレシピとモデル設計とともに、Eagle2というパフォーマンスVLMのファミリーにつながります。
具体的には、Eagle2-9Bは様々なマルチモーダルベンチマークで最先端の結果を達成し、特定の競合モデルと最大70Bパラメータをマッチングする。
関連論文リスト
- Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [64.61315565501681]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models [146.85788712792177]
Molmoは視覚言語モデル(VLM)の新たなファミリーであり、オープンネスのクラスにおける最先端技術である。
我々の最高のクラス72Bモデルは、オープンウェイトとデータモデルのクラスで他よりも優れています。
論文 参考訳(メタデータ) (2024-09-25T17:59:51Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - What Matters in Training a GPT4-Style Language Model with Multimodal
Inputs? [24.676820488258336]
大規模言語モデル(LLM)は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示す。
これらのモデルは、ネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に依存している。
本稿では,そのようなモデルの訓練について,定量的かつ質的に,体系的かつ包括的に研究する。
論文 参考訳(メタデータ) (2023-07-05T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。