論文の概要: Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.09439v1
- Date: Tue, 10 Feb 2026 06:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.399891
- Title: Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning
- Title(参考訳): Fine-T2I: 高品質なT2Iファインチューニングのためのオープン、大規模、およびディバースデータセット
- Authors: Xu Ma, Yitian Zhang, Qihua Dong, Yun Fu,
- Abstract要約: Fine-T2Iは、テキストから画像への微調整のための大規模で高品質で完全にオープンなデータセットである。
すべてのサンプルは、テキストイメージアライメント、視覚的忠実度、即興品質のために厳格にフィルタリングされる。
最後のデータセットには600万以上のテキストイメージペアが含まれており、ディスク上では約2TBである。
- 参考スコア(独自算出の注目度): 39.35923155873977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality and open datasets remain a major bottleneck for text-to-image (T2I) fine-tuning. Despite rapid progress in model architectures and training pipelines, most publicly available fine-tuning datasets suffer from low resolution, poor text-image alignment, or limited diversity, resulting in a clear performance gap between open research models and enterprise-grade models. In this work, we present Fine-T2I, a large-scale, high-quality, and fully open dataset for T2I fine-tuning. Fine-T2I spans 10 task combinations, 32 prompt categories, 11 visual styles, and 5 prompt templates, and combines synthetic images generated by strong modern models with carefully curated real images from professional photographers. All samples are rigorously filtered for text-image alignment, visual fidelity, and prompt quality, with over 95% of initial candidates removed. The final dataset contains over 6 million text-image pairs, around 2 TB on disk, approaching the scale of pretraining datasets while maintaining fine-tuning-level quality. Across a diverse set of pretrained diffusion and autoregressive models, fine-tuning on Fine-T2I consistently improves both generation quality and instruction adherence, as validated by human evaluation, visual comparison, and automatic metrics. We release Fine-T2I under an open license to help close the data gap in T2I fine-tuning in the open community.
- Abstract(参考訳): 高品質でオープンなデータセットは、テキスト・トゥ・イメージ(T2I)の微調整の大きなボトルネックであり続けている。
モデルアーキテクチャとトレーニングパイプラインの急速な進歩にもかかわらず、ほとんどの公開可能な微調整データセットは、低解像度、低テキストイメージアライメント、あるいは限られた多様性に悩まされており、その結果、オープンリサーチモデルとエンタープライズグレードモデルの明確なパフォーマンスギャップが生じる。
本研究では,T2Iファインチューニングのための大規模,高品質,完全オープンなデータセットであるFine-T2Iを提案する。
Fine-T2Iは10のタスクの組み合わせ、32のプロンプトカテゴリ、11のビジュアルスタイル、および5のプロンプトテンプレートで構成され、強力なモダンモデルによって生成された合成イメージとプロの写真家による慎重にキュレートされたリアルイメージを組み合わせている。
すべてのサンプルは、テキストイメージアライメント、視覚的忠実度、即時品質のために厳格にフィルタリングされ、初期候補の95%以上が削除された。
最終データセットには600万以上のテキストイメージペアが含まれており、ディスク上の約2TBは、微調整レベルの品質を維持しながら、事前トレーニングデータセットのスケールに近づいている。
様々な事前訓練された拡散モデルと自己回帰モデルの範囲で、Fine-T2Iの微調整は、人間の評価、視覚的比較、自動測定によって検証されるように、生成品質と命令順守の両方を一貫して改善する。
我々はオープンライセンスの下でFine-T2Iをリリースし、オープンコミュニティにおけるT2Iの微調整におけるデータギャップを埋める手助けをします。
関連論文リスト
- Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification [31.116511358786084]
テキスト・ツー・イメージ(T2I)モデルは、合成データセット生成にますます利用されている。
いくつかの実例でT2Iモデルを微調整することで、合成トレーニングデータの質を向上させることができる。
細粒度分類に対する懸念を軽減するための細粒度調整戦略BOB(Beyondjects)を提案する。
論文 参考訳(メタデータ) (2025-10-28T05:40:14Z) - Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs [36.42060582800515]
本稿では,T2Iモデルの"フリーランチ"アライメントを可能にするフレームワークであるText Preference Optimization (TPO)を紹介する。
TPOは、ミスマッチしたプロンプトよりもマッチしたプロンプトを好むようにモデルを訓練することで機能する。
我々のフレームワークは汎用的で、既存の嗜好ベースのアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2025-09-30T04:32:34Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - VersaT2I: Improving Text-to-Image Models with Versatile Reward [32.30564849001593]
VersaT2Iは、あらゆるテキスト・トゥ・イメージ(T2I)モデルの性能を向上させる汎用的なトレーニングフレームワークである。
画像の品質を、美学、テキストイメージアライメント、幾何学、低レベルの品質など、いくつかの側面に分解する。
論文 参考訳(メタデータ) (2024-03-27T12:08:41Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [62.81033771780328]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。