Fugu-MT 論文翻訳(概要): MONET: A Massive, Open, Non-redundant and Enriched Text-to-image dataset

論文の概要: MONET: A Massive, Open, Non-redundant and Enriched Text-to-image dataset

arxiv url: http://arxiv.org/abs/2605.21272v1
Date: Wed, 20 May 2026 15:04:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 19:19:56.74184
Title: MONET: A Massive, Open, Non-redundant and Enriched Text-to-image dataset
Title（参考訳）: MONET: 大規模でオープンで、非冗長で、リッチなテキスト・ツー・イメージデータセット
Authors: Benjamin Aubin, Gonzalo Iñaki Quintana, Onur Tasar, Sanjeev Sreetharan, Urszula Czerwinska, Damien Henry, Clément Chadebec,
Abstract要約: 大規模なテキスト・ツー・イメージモデルのトレーニングには、さまざまなコンテンツと詳細なキャプションを備えた高品質でキュレートされたデータセットが必要です。異種オープンソース間で2.9Bの生対から収集された104.9Mイメージ-テキストペアのオープンなApache 2.0データセットであるMONETを紹介する。
参考スコア（独自算出の注目度）: 4.939881127272715
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training large text-to-image models requires high-quality, curated datasets with diverse content and detailed captions. Yet the cost and complexity of collecting, filtering, deduplicating, and re-captioning such corpora at scale hinders open and reproducible research in the field. We introduce MONET, an open Apache 2.0 dataset of approx. 104.9M image--text pairs collected from 2.9B raw pairs across heterogeneous open sources through successive stages of safety filtering, domain-based filtering, exact and near-duplicate removal, and re-captioning with multiple vision-language models covering short to long-form descriptions, and further augmented with synthetically generated samples. Each image is shipped with pre-computed embeddings and annotations to accelerate downstream use. To validate the effectiveness of MONET, we train a 4B-parameter latent diffusion model exclusively on it and reach competitive GenEval and DPG scores, demonstrating that our dataset lowers the barrier to large-scale, reproducible text-to-image research.
Abstract（参考訳）: 大規模なテキスト・ツー・イメージモデルのトレーニングには、さまざまなコンテンツと詳細なキャプションを備えた高品質でキュレートされたデータセットが必要です。しかし、大規模なコーパスの収集、フィルタリング、複製、再カプセル化のコストと複雑さは、この分野におけるオープンで再現可能な研究を妨げる。オープンなApache 2.0アロックスデータセットであるMONETを紹介します。 104.9M 画像-テキスト対は、安全フィルタリング、ドメインベースのフィルタリング、正確でほぼ重複した除去、短文と長文の記述を網羅した複数の視覚言語モデルによる再カプセル化、さらに合成的に生成されたサンプルの連続的な段階を通じて、異種オープンソース間で2.9B の生対から収集された。各イメージは、ダウンストリームの使用を加速するために、事前に計算された埋め込みとアノテーションと共に出荷される。 MONETの有効性を検証するため、我々は4Bパラメータ潜在拡散モデルのみをトレーニングし、競合するGenEvalとDPGスコアに到達し、我々のデータセットが大規模で再現可能なテキスト・ツー・イメージ研究の障壁を低くすることを示した。

関連論文リスト

MagicSeg: Open-World Segmentation Pretraining via Counterfactural Diffusion-Based Auto-Generation [89.19760796832765]
MagicSeg"は、オープンワールドセマンティックセグメンテーションのニーズに合わせて自動的にデータセットを生成するパイプラインである。 PASCAL VOC, PASCAL Context, COCOを用いて, 62.9%, 26.7%, 40.2%の性能でSOTAを達成した。
論文参考訳（メタデータ） (2026-03-20T02:37:38Z)
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文参考訳（メタデータ） (2024-06-12T17:01:04Z)
Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data [31.507451966555383]
本稿では、画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。さまざまなソースからの複数のキャプションに各画像が関連付けられている多様な画像テキストデータセットを収集する。我々は、画像テキストアライメントに関する人間の微妙な理解を内在化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
論文参考訳（メタデータ） (2023-12-11T05:57:09Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)
LAION-5B: An open large-scale dataset for training next generation image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文参考訳（メタデータ） (2022-10-16T00:08:18Z)
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
論文参考訳（メタデータ） (2022-10-06T13:58:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。