Fugu-MT 論文翻訳(概要): MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

論文の概要: MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

arxiv url: http://arxiv.org/abs/2406.11271v5
Date: Thu, 31 Oct 2024 03:29:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.725918
Title: MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
Title（参考訳）: MINT-1T: オープンソースのマルチモーダルデータを10倍スケールする: 1トリリオントークンを持つマルチモーダルデータセット
Authors: Anas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Kumar Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt,
Abstract要約: MINT-1Tは最も広く多様なオープンソースMultimodal INTerleavedデータセットです。 MINT-1Tは1兆個のテキストトークンと340億の画像で構成され、既存のオープンソースデータセットの10倍のスケールアップである。実験の結果,MINT-1TでトレーニングしたLMMは,以前の先行データセット OBELICS でトレーニングしたモデルの性能に匹敵することがわかった。
参考スコア（独自算出の注目度）: 113.9621845919304
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal interleaved datasets featuring free-form interleaved sequences of images and text are crucial for training frontier large multimodal models (LMMs). Despite the rapid progression of open-source LMMs, there remains a pronounced scarcity of large-scale, diverse open-source multimodal interleaved datasets. In response, we introduce MINT-1T, the most extensive and diverse open-source Multimodal INTerleaved dataset to date. MINT-1T comprises one trillion text tokens and 3.4 billion images, a 10x scale-up from existing open-source datasets. Additionally, we include previously untapped sources such as PDFs and ArXiv papers. As scaling multimodal interleaved datasets requires substantial engineering effort, sharing the data curation process and releasing the dataset greatly benefits the community. Our experiments show that LMMs trained on MINT-1T rival the performance of models trained on the previous leading dataset, OBELICS. Our data and code will be released at https://github.com/mlfoundations/MINT-1T.
Abstract（参考訳）: 画像とテキストのフリーフォームなインターリーブ配列を含むマルチモーダルインターリーブデータセットは、フロンティア大規模マルチモーダルモデル(LMM)のトレーニングに不可欠である。オープンソースLMMの急速な進歩にもかかわらず、大規模で多様なオープンソースマルチモーダルインターリーブデータセットが不足している。 MINT-1Tは,これまでで最も広く多様なオープンソースMultimodal INTerleavedデータセットである。 MINT-1Tは1兆個のテキストトークンと340億の画像で構成され、既存のオープンソースデータセットの10倍のスケールアップである。さらに、PDFやArXivなどの未使用の資料も含んでいます。マルチモーダルなインターリーブデータセットのスケーリングには、データキュレーションプロセスを共有し、データセットをリリースすることで、コミュニティにとって大きなメリットがある。実験の結果,MINT-1TでトレーニングしたLMMは,以前の先行データセット OBELICS でトレーニングしたモデルの性能に匹敵することがわかった。私たちのデータとコードはhttps://github.com/mlfoundations/MINT-1T.comで公開されます。

関連論文リスト

Binge Watch: Reproducible Multimodal Benchmarks Datasets for Large-Scale Movie Recommendation on MovieLens-10M and 20M [36.76326963560822]
M3L-10MとM3L-20Mの2つの大規模再現可能なマルチモーダルデータセットを映画領域向けにリリースする。完全な文書化されたパイプラインに従って、映画のプロット、ポスター、トレーラーを収集し、そこからテキスト、視覚、音響、ビデオの特徴を抽出する。複数のフォーマットでオリジナルの生データ、抽出された特徴、完全なデータセットをダウンロードするマッピングを公開しています。
論文参考訳（メタデータ） (2026-02-17T11:22:20Z)
Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs [57.51026028687215]
Honey-Data-15Mは、約1500万のQAペアからなる新しいSFTデータセットである。データキュレーションパイプラインであるHoneyPipeとその基盤となるフレームワークであるDataStudioは、データキュレーションのための透過的で適応可能な方法論を提供する。実験の結果、Bee-8Bは完全にオープンなMLLMのための新しい最先端(SOTA)を確立し、InternVL3.5-8Bのような最近のセミオープンモデルに匹敵する性能を実現している。
論文参考訳（メタデータ） (2025-10-15T17:52:59Z)
Emerging Properties in Unified Multimodal Pretraining [32.856334401494145]
マルチモーダル理解と生成をサポートするオープンソースの基盤モデルであるBAGELを紹介する。 BAGELは、大規模なインターリーブ付きテキスト、画像、ビデオ、Webデータからキュレートされた数兆のトークンに基づいて事前訓練された、統一されたデコーダのみのモデルである。オープンソースの統一モデルでは、マルチモーダル生成と標準ベンチマークでの理解の両方において、大幅に優れています。
論文参考訳（メタデータ） (2025-05-20T17:59:30Z)
Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis [19.75619888353222]
画像のみを用いて高品質なマルチモーダルデータを合成するための新しい手法Oasisを提案する。 Oasisは、MLLMにイメージのみをプロンプトすることで、従来のメソッドを分解する。本手法はデータ品質を確保するための微妙な品質制御手法を特徴とする。
論文参考訳（メタデータ） (2025-03-11T08:25:40Z)
Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [63.484378941471114]
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの101.3%を達成している。
論文参考訳（メタデータ） (2024-12-09T08:36:10Z)
MMBind: Unleashing the Potential of Distributed and Heterogeneous Data for Multimodal Learning in IoT [11.884646027921173]
分散および異種IoTデータのマルチモーダル学習のための新しいフレームワークであるMBindを提案する。同様の事象を観測する異なるモードのデータを、異なる時間や場所で捉えたとしても、マルチモーダルトレーニングに効果的に利用できることを示す。
論文参考訳（メタデータ） (2024-11-18T23:34:07Z)
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [35.85909368345219]
大規模マルチモーダル命令データセットであるInfinity-MMを導入する。統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
論文参考訳（メタデータ） (2024-10-24T09:03:48Z)
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文参考訳（メタデータ） (2024-09-19T08:41:21Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Time-MMD: Multi-Domain Multimodal Dataset for Time Series Analysis [40.44013652777716]
Time-MMDは、最初のマルチドメイン、マルチモーダル時系列データセットである。 MM-TSFlibは、最初のマルチモーダル時系列予測ライブラリである。
論文参考訳（メタデータ） (2024-06-12T20:20:09Z)
WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文参考訳（メタデータ） (2023-08-21T14:40:48Z)
MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。既存のパブリックMSMOデータセットには多くの制限がある。 textbfMMSumデータセットを精巧にキュレートした。
論文参考訳（メタデータ） (2023-06-07T07:43:11Z)
M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks [94.80043324367858]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。 M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文参考訳（メタデータ） (2021-09-09T13:50:22Z)
Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文参考訳（メタデータ） (2021-09-01T14:45:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。