論文の概要: Alchemist: Turning Public Text-to-Image Data into Generative Gold
- arxiv url: http://arxiv.org/abs/2505.19297v1
- Date: Sun, 25 May 2025 20:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.037407
- Title: Alchemist: Turning Public Text-to-Image Data into Generative Gold
- Title(参考訳): alchemist: 公開テキストから画像へのデータを生成金に変える
- Authors: Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin,
- Abstract要約: 本稿では,汎用的な微調整データセットを作成するための新しい手法を提案する。
この手法を用いて、コンパクトな3,350サンプルのSFTデータセットであるAlchemistを構築する。
実験により、アルケミストは多様性とスタイルを保ちながら、5つのパブリックなT2Iモデルの生成品質を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 44.53803589100733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training equips text-to-image (T2I) models with broad world knowledge, but this alone is often insufficient to achieve high aesthetic quality and alignment. Consequently, supervised fine-tuning (SFT) is crucial for further refinement. However, its effectiveness highly depends on the quality of the fine-tuning dataset. Existing public SFT datasets frequently target narrow domains (e.g., anime or specific art styles), and the creation of high-quality, general-purpose SFT datasets remains a significant challenge. Current curation methods are often costly and struggle to identify truly impactful samples. This challenge is further complicated by the scarcity of public general-purpose datasets, as leading models often rely on large, proprietary, and poorly documented internal data, hindering broader research progress. This paper introduces a novel methodology for creating general-purpose SFT datasets by leveraging a pre-trained generative model as an estimator of high-impact training samples. We apply this methodology to construct and release Alchemist, a compact (3,350 samples) yet highly effective SFT dataset. Experiments demonstrate that Alchemist substantially improves the generative quality of five public T2I models while preserving diversity and style. Additionally, we release the fine-tuned models' weights to the public.
- Abstract(参考訳): 事前学習は、広い世界知識を持つテキスト・ツー・イメージ(T2I)モデルに装備するが、高い美的品質とアライメントを達成するには、これだけでは不十分であることが多い。
したがって、さらに改良するためには、教師付き微調整(SFT)が不可欠である。
しかし、その効果は微調整データセットの品質に大きく依存する。
既存のパブリックなSFTデータセットは、狭義のドメイン(例えば、アニメや特定のアートスタイル)を頻繁にターゲットとしており、高品質で汎用的なSFTデータセットの作成は依然として大きな課題である。
現在のキュレーション法は、しばしば費用がかかり、真に影響のあるサンプルを特定するのに苦労する。
この課題は、しばしば大規模でプロプライエタリでドキュメントの不十分な内部データに依存し、より広範な研究の進展を妨げるため、パブリックな汎用データセットの不足によってさらに複雑である。
本稿では、事前学習した生成モデルを高インパクトトレーニングサンプルの推定手段として活用し、汎用SFTデータセットを作成するための新しい手法を提案する。
本稿では,コンパクトな3,350サンプルのSFTデータセットであるAlchemistの構築とリリースに本手法を適用した。
実験により、アルケミストは多様性とスタイルを保ちながら、5つのパブリックなT2Iモデルの生成品質を大幅に改善することが示された。
さらに、細調整されたモデルの重みを一般向けにリリースします。
関連論文リスト
- Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality [10.74213785908381]
Supervised Fine-tuning (SFT) は、大きな言語モデルを人間の指示や値に合わせるための重要なステップである。
コード生成、数学的推論、汎用ドメインタスクなど、さまざまなデータセットに基づいて、幅広いベースモデルをトレーニングしました。
我々は、これらの1000以上のSFTモデルとベンチマーク結果をリリースし、さらなる研究を加速する。
論文 参考訳(メタデータ) (2025-06-17T16:13:15Z) - Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting [1.5595148909011116]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) の命令追従能力を高めるための重要なステップである。
SFTはしばしば、破滅的忘れという現象として、モデルの一般的な能力の低下につながる。
本稿では,従来のSFTデータへのアクセスを必要とせずに,破滅的な忘れを効果的に軽減する,新しい費用対効果のSFT手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T06:23:50Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Advancing Fine-Grained Classification by Structure and Subject Preserving Augmentation [8.777277201807351]
本報告では,SaSPA: Structure and Subject Preserving Augmentationについて述べる。
本手法では, 実画像をガイダンスとして使用せず, 生成の柔軟性を高め, 多様性を高める。
従来のデータ拡張手法と最近のデータ拡張手法の両方に対して、広範な実験を行い、SaSPAをベンチマークする。
論文 参考訳(メタデータ) (2024-06-20T17:58:30Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - FT2Ra: A Fine-Tuning-Inspired Approach to Retrieval-Augmented Code Completion [24.964973946366335]
我々は,真の微調整を模倣することを目的とした新しい検索手法FT2Raを開発した。
FT2RaはUniXcoderの最良のベースライン方式に比べて精度が4.29%向上している。
論文 参考訳(メタデータ) (2024-04-02T01:42:15Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。