論文の概要: CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think
- arxiv url: http://arxiv.org/abs/2603.18991v1
- Date: Thu, 19 Mar 2026 14:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.212051
- Title: CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think
- Title(参考訳): CRAFT:微調整で拡散モデルを調整するのは思ったより簡単
- Authors: Zening Sun, Zhengpeng Xie, Lichen Bai, Shitong Shao, Shuo Yang, Zeke Xie,
- Abstract要約: 本稿では,CRAFT(Composite Reward Assisted Fine-Tuning)を提案する。
CRAFTは軽量だが強力な微調整パラダイムであり、計算効率を維持しながら、トレーニングデータを大幅に削減する必要がある。
実験の結果,100個のサンプルしか持たない CRAFT は,最近のSOTA の選好最適化手法を数千個の選好対のサンプルで容易に上回ることができることがわかった。
- 参考スコア(独自算出の注目度): 20.279525179138453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning Diffusion models has achieved remarkable breakthroughs in generating high-quality, human preference-aligned images. Existing techniques, such as supervised fine-tuning (SFT) and DPO-style preference optimization, have become principled tools for fine-tuning diffusion models. However, SFT relies on high-quality images that are costly to obtain, while DPO-style methods depend on large-scale preference datasets, which are often inconsistent in quality. Beyond data dependency, these methods are further constrained by computational inefficiency. To address these two challenges, we propose Composite Reward Assisted Fine-Tuning (CRAFT), a lightweight yet powerful fine-tuning paradigm that requires significantly reduced training data while maintaining computational efficiency. It first leverages a Composite Reward Filtering (CRF) technique to construct a high-quality and consistent training dataset and then perform an enhanced variant of SFT. We also theoretically prove that CRAFT actually optimizes the lower bound of group-based reinforcement learning, establishing a principled connection between SFT with selected data and reinforcement learning. Our extensive empirical results demonstrate that CRAFT with only 100 samples can easily outperform recent SOTA preference optimization methods with thousands of preference-paired samples. Moreover, CRAFT can even achieve 11-220$\times$ faster convergences than the baseline preference optimization methods, highlighting its extremely high efficiency.
- Abstract(参考訳): 適応拡散モデルは、高品質で人間の嗜好に沿った画像を生成する際、驚くべきブレークスルーを成し遂げた。
教師付き微調整(SFT)やDPOスタイルの選好最適化といった既存の技術は、微調整拡散モデルのための原則化されたツールとなっている。
しかし、SFTは取得にコストがかかる高品質な画像に依存し、DPOスタイルの手法は、しばしば品質に矛盾する大規模な嗜好データセットに依存している。
データ依存以外にも、これらの手法は計算の非効率性によってさらに制約される。
これら2つの課題に対処するために,計算効率を維持しながらトレーニングデータを大幅に削減する軽量かつ強力な微調整パラダイムであるComposite Reward Assisted Fine-Tuning (CRAFT)を提案する。
まず、CRF(Composite Reward Filtering)技術を利用して、高品質で一貫したトレーニングデータセットを構築し、SFTの拡張版を実行する。
また、CRAFTがグループベース強化学習の下位境界を実際に最適化していることが理論的に証明され、選択したデータと強化学習との原則的接続が確立される。
実験により,100個のサンプルしか持たない CRAFT は,最近のSOTA の選好最適化手法を数千個の選好対のサンプルで容易に上回ることができることを示した。
さらに、CRAFTはベースライン選好最適化法よりも11-220$\times$高速収束を達成でき、非常に高い効率性を示している。
関連論文リスト
- Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning [49.04912820721943]
Supervised Fine-tuning (SFT) は計算コストが高く、時にはオーバーフィットやバイアス増幅に悩まされる。
本研究は、トレーニングプロセス中にサンプルを動的にスコア付け、フィルタリングするオンラインバッチ選択ファミリについて研究する。
SFTにおける効率的なオンラインバッチ選択のためのフレームワークである textbfUDS (Utility-Diversity Sampling) を開発した。
論文 参考訳(メタデータ) (2025-10-19T15:32:01Z) - InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Triple Preference Optimization: Achieving Better Alignment using a Single Step Optimization [34.29965046863887]
Triple Preference Optimization (TPO) は、推論能力と命令追従能力の両方を強化するために設計された新しい選好学習手法である。
TPOは、異なるデータセットサイズで応答長を大幅に増加させることなく、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。