論文の概要: Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
- arxiv url: http://arxiv.org/abs/2409.17146v2
- Date: Thu, 05 Dec 2024 14:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:37.364933
- Title: Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
- Title(参考訳): MolmoとPixMo:最先端ビジョンランゲージモデルのためのオープンウェイトとオープンデータ
- Authors: Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, YenSung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi,
- Abstract要約: Molmoは視覚言語モデル(VLM)の新たなファミリーであり、オープンネスのクラスにおける最先端技術である。
我々の最高のクラス72Bモデルは、オープンウェイトとデータモデルのクラスで他よりも優れています。
- 参考スコア(独自算出の注目度): 146.85788712792177
- License:
- Abstract: Today's most advanced vision-language models (VLMs) remain proprietary. The strongest open-weight models rely heavily on synthetic data from proprietary VLMs to achieve good performance, effectively distilling these closed VLMs into open ones. As a result, the community has been missing foundational knowledge about how to build performant VLMs from scratch. We present Molmo, a new family of VLMs that are state-of-the-art in their class of openness. Our key contribution is a collection of new datasets called PixMo, including a dataset of highly detailed image captions for pre-training, a free-form image Q&A dataset for fine-tuning, and an innovative 2D pointing dataset, all collected without the use of external VLMs. The success of our approach relies on careful modeling choices, a well-tuned training pipeline, and, most critically, the quality of our newly collected datasets. Our best-in-class 72B model not only outperforms others in the class of open weight and data models, but also outperforms larger proprietary models including Claude 3.5 Sonnet, and Gemini 1.5 Pro and Flash, second only to GPT-4o based on both academic benchmarks and on a large human evaluation. Our model weights, new datasets, and source code are available at https://molmo.allenai.org/blog.
- Abstract(参考訳): 今日の最も先進的なビジョン言語モデル(VLM)はプロプライエタリのままである。
最強のオープンウェイトモデルは、プロプライエタリなVLMの合成データに大きく依存して優れた性能を実現し、これらの閉じたVLMを効果的にオープンなVLMに蒸留する。
結果として、コミュニティは、パフォーマンスの高いVLMをスクラッチから構築する方法に関する基礎知識を欠いている。
オープンネスのクラスにおける最先端技術であるVLMの新しいファミリーであるMomoを紹介します。
私たちの重要なコントリビューションはPixMoと呼ばれる新しいデータセットのコレクションです。事前トレーニング用の高精細なイメージキャプションのデータセット、微調整用のフリーフォーム画像Q&Aデータセット、革新的な2Dポインティングデータセットなどです。
このアプローチの成功は、慎重なモデリングの選択、十分に調整されたトレーニングパイプライン、そして最も重要なのは、新たに収集したデータセットの品質に依存しています。
我々の最高のクラス72Bモデルは、オープンウェイトとデータモデルのクラスで他よりも優れていますが、Claude 3.5 SonnetやGemini 1.5 Pro、Flashといったより大きなプロプライエタリモデルよりも優れています。
私たちのモデルウェイト、新しいデータセット、ソースコードはhttps://molmo.allenai.org/blog.orgで公開されています。
関連論文リスト
- Eagle 2: Building Post-Training Data Strategies from Scratch for Frontier Vision-Language Models [90.46966584238682]
ほとんどのオープンソースのビジョン言語モデルは、最終的なモデルウェイトのみを公開しており、データ戦略と実装に関する重要な詳細は、ほとんど不透明である。
本稿では,フロンティアVLMの開発におけるデータ戦略の重要な役割を示すとともに,データ中心の観点からのVLMポストトレーニングに対処する。
トレーニング後のデータ戦略をゼロから研究し、構築することで、私たちは開発プロセスに関する詳細な洞察を共有し、オープンソースコミュニティのための競争モデルの開発に役立てることを目指しています。
論文 参考訳(メタデータ) (2025-01-20T18:40:47Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models [36.576853882830896]
我々はEvolveDirectorを導入し、公開リソースを使用した高度なモデルに匹敵するテキスト・画像生成モデルをトレーニングする。
このフレームワークは、公開APIを通じて高度なモデルと対話して、ベースモデルをトレーニングするためのテキストイメージデータペアを取得する。
我々は,事前学習された大規模視覚言語モデル(VLM)を活用し,基礎モデルの進化を導く。
論文 参考訳(メタデータ) (2024-10-09T17:52:28Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。