論文の概要: Alchemist: Turning Public Text-to-Image Data into Generative Gold
- arxiv url: http://arxiv.org/abs/2505.19297v1
- Date: Sun, 25 May 2025 20:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.037407
- Title: Alchemist: Turning Public Text-to-Image Data into Generative Gold
- Title(参考訳): alchemist: 公開テキストから画像へのデータを生成金に変える
- Authors: Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin,
- Abstract要約: 本稿では,汎用的な微調整データセットを作成するための新しい手法を提案する。
この手法を用いて、コンパクトな3,350サンプルのSFTデータセットであるAlchemistを構築する。
実験により、アルケミストは多様性とスタイルを保ちながら、5つのパブリックなT2Iモデルの生成品質を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 44.53803589100733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training equips text-to-image (T2I) models with broad world knowledge, but this alone is often insufficient to achieve high aesthetic quality and alignment. Consequently, supervised fine-tuning (SFT) is crucial for further refinement. However, its effectiveness highly depends on the quality of the fine-tuning dataset. Existing public SFT datasets frequently target narrow domains (e.g., anime or specific art styles), and the creation of high-quality, general-purpose SFT datasets remains a significant challenge. Current curation methods are often costly and struggle to identify truly impactful samples. This challenge is further complicated by the scarcity of public general-purpose datasets, as leading models often rely on large, proprietary, and poorly documented internal data, hindering broader research progress. This paper introduces a novel methodology for creating general-purpose SFT datasets by leveraging a pre-trained generative model as an estimator of high-impact training samples. We apply this methodology to construct and release Alchemist, a compact (3,350 samples) yet highly effective SFT dataset. Experiments demonstrate that Alchemist substantially improves the generative quality of five public T2I models while preserving diversity and style. Additionally, we release the fine-tuned models' weights to the public.
- Abstract(参考訳): 事前学習は、広い世界知識を持つテキスト・ツー・イメージ(T2I)モデルに装備するが、高い美的品質とアライメントを達成するには、これだけでは不十分であることが多い。
したがって、さらに改良するためには、教師付き微調整(SFT)が不可欠である。
しかし、その効果は微調整データセットの品質に大きく依存する。
既存のパブリックなSFTデータセットは、狭義のドメイン(例えば、アニメや特定のアートスタイル)を頻繁にターゲットとしており、高品質で汎用的なSFTデータセットの作成は依然として大きな課題である。
現在のキュレーション法は、しばしば費用がかかり、真に影響のあるサンプルを特定するのに苦労する。
この課題は、しばしば大規模でプロプライエタリでドキュメントの不十分な内部データに依存し、より広範な研究の進展を妨げるため、パブリックな汎用データセットの不足によってさらに複雑である。
本稿では、事前学習した生成モデルを高インパクトトレーニングサンプルの推定手段として活用し、汎用SFTデータセットを作成するための新しい手法を提案する。
本稿では,コンパクトな3,350サンプルのSFTデータセットであるAlchemistの構築とリリースに本手法を適用した。
実験により、アルケミストは多様性とスタイルを保ちながら、5つのパブリックなT2Iモデルの生成品質を大幅に改善することが示された。
さらに、細調整されたモデルの重みを一般向けにリリースします。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - Advancing Fine-Grained Classification by Structure and Subject Preserving Augmentation [8.777277201807351]
本報告では,SaSPA: Structure and Subject Preserving Augmentationについて述べる。
本手法では, 実画像をガイダンスとして使用せず, 生成の柔軟性を高め, 多様性を高める。
従来のデータ拡張手法と最近のデータ拡張手法の両方に対して、広範な実験を行い、SaSPAをベンチマークする。
論文 参考訳(メタデータ) (2024-06-20T17:58:30Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。