Fugu-MT 論文翻訳(概要): Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

論文の概要: Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

arxiv url: http://arxiv.org/abs/2409.17146v1
Date: Wed, 25 Sep 2024 17:59:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 02:33:29.578344
Title: Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models
Title（参考訳）: MolmoとPixMo: 最先端マルチモーダルモデルのためのオープンウェイトとオープンデータ
Authors: Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, YenSung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Jen Dumas, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi,
Abstract要約: Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
参考スコア（独自算出の注目度）: 146.18107944503436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Today's most advanced multimodal models remain proprietary. The strongest open-weight models rely heavily on synthetic data from proprietary VLMs to achieve good performance, effectively distilling these closed models into open ones. As a result, the community is still missing foundational knowledge about how to build performant VLMs from scratch. We present Molmo, a new family of VLMs that are state-of-the-art in their class of openness. Our key innovation is a novel, highly detailed image caption dataset collected entirely from human annotators using speech-based descriptions. To enable a wide array of user interactions, we also introduce a diverse dataset mixture for fine-tuning that includes in-the-wild Q&A and innovative 2D pointing data. The success of our approach relies on careful choices for the model architecture details, a well-tuned training pipeline, and, most critically, the quality of our newly collected datasets, all of which will be released. The best-in-class 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation. We will be releasing all of our model weights, captioning and fine-tuning data, and source code in the near future. Select model weights, inference code, and demo are available at https://molmo.allenai.org.
Abstract（参考訳）: 今日の最も先進的なマルチモーダルモデルはプロプライエタリのままである。最強のオープンウェイトモデルは、プロプライエタリなVLMの合成データに大きく依存して優れた性能を達成し、これらの閉じたモデルを効果的にオープンなモデルに蒸留する。結果として、コミュニティは、パフォーマンスの高いVLMをスクラッチから構築する方法に関する基礎知識を失っている。オープンネスのクラスにおける最先端技術であるVLMの新しいファミリーであるMomoを紹介します。私たちの重要なイノベーションは、音声ベースの記述を使用して、人間のアノテーションから収集された、新しい、非常に詳細な画像キャプションデータセットです。多様なユーザインタラクションを実現するため,本研究では,既存Q&Aと革新的な2Dポインティングデータを含む,微調整のための多様なデータセットミックスも導入する。このアプローチの成功は、モデルアーキテクチャの詳細、十分に調整されたトレーニングパイプライン、そして最も重要なのは、新たに収集したデータセットの品質、これらすべてのリリースに関する慎重な選択に依存しています。モルモ族の最高の72Bモデルは、オープンウェイトとデータモデルのクラスで他よりも優れているだけでなく、学術的なベンチマークと人的評価の両方において、GPT-4o、Claude 3.5、Gemini 1.5といったプロプライエタリなシステムと好意的に比較している。近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。 Select model weights, inference code, demoはhttps://molmo.allenai.orgで公開されている。

関連論文リスト

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文参考訳（メタデータ） (2025-04-17T17:59:56Z)
Data Metabolism: An Efficient Data Design Schema For Vision Language Model [19.12576323467089]
データキュレーションは、強力なビジュアル言語モデルのトレーニングにおいて重要な役割を果たす。既存の巨大なデータセットを処理し、ユーザ固有のデータフライホイールを構築する方法を示します。我々は、典型的なマルチモーダルタスクに優れる、Capybara-VLというVLMをリリースする。
論文参考訳（メタデータ） (2025-04-10T07:20:54Z)
Eagle 2: Building Post-Training Data Strategies from Scratch for Frontier Vision-Language Models [90.46966584238682]
ほとんどのオープンソースのビジョン言語モデルは、最終的なモデルウェイトのみを公開しており、データ戦略と実装に関する重要な詳細は、ほとんど不透明である。本稿では,フロンティアVLMの開発におけるデータ戦略の重要な役割を示すとともに,データ中心の観点からのVLMポストトレーニングに対処する。トレーニング後のデータ戦略をゼロから研究し、構築することで、私たちは開発プロセスに関する詳細な洞察を共有し、オープンソースコミュニティのための競争モデルの開発に役立てることを目指しています。
論文参考訳（メタデータ） (2025-01-20T18:40:47Z)
7B Fully Open Source Moxin-LLM/VLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement [41.463611054440435]
Moxin 7Bは、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に準拠した、完全にオープンソースのLarge Language Models (LLM) である。トレーニング済みのコードと設定、トレーニングと微調整のデータセット、中間および最終チェックポイントをリリースします。実験により, ゼロショット評価, 少数ショット評価, CoT評価など, 各種評価において, 優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-08T02:01:46Z)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models [36.576853882830896]
我々はEvolveDirectorを導入し、公開リソースを使用した高度なモデルに匹敵するテキスト・画像生成モデルをトレーニングする。このフレームワークは、公開APIを通じて高度なモデルと対話して、ベースモデルをトレーニングするためのテキストイメージデータペアを取得する。我々は,事前学習された大規模視覚言語モデル(VLM)を活用し,基礎モデルの進化を導く。
論文参考訳（メタデータ） (2024-10-09T17:52:28Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文参考訳（メタデータ） (2024-09-07T13:41:37Z)
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文参考訳（メタデータ） (2024-08-16T17:57:01Z)
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文参考訳（メタデータ） (2024-07-16T14:40:07Z)
WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文参考訳（メタデータ） (2023-08-21T14:40:48Z)
"Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文参考訳（メタデータ） (2023-06-05T21:38:30Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。