論文の概要: Automated Filtering of Human Feedback Data for Aligning Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.10166v1
- Date: Mon, 14 Oct 2024 05:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:11:47.571277
- Title: Automated Filtering of Human Feedback Data for Aligning Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおける人間のフィードバックデータの自動フィルタリング
- Authors: Yongjin Yang, Sihyeon Kim, Hojung Jung, Sangmin Bae, SangMook Kim, Se-Young Yun, Kimin Lee,
- Abstract要約: 人間のフィードバックによる微調整テキスト・画像拡散モデルは、モデル行動と人間の意図を整合させる効果的な方法である。
しかしながら、このアライメントプロセスは、人間のフィードバックデータセットにある大きなサイズとノイズのために、しばしば緩やかな収束に悩まされる。
本研究では,人間のフィードバックデータセットを用いた拡散モデルの微調整性向上を目的とした,新しい自動データフィルタリングアルゴリズムFiFAを提案する。
- 参考スコア(独自算出の注目度): 36.84880190385986
- License:
- Abstract: Fine-tuning text-to-image diffusion models with human feedback is an effective method for aligning model behavior with human intentions. However, this alignment process often suffers from slow convergence due to the large size and noise present in human feedback datasets. In this work, we propose FiFA, a novel automated data filtering algorithm designed to enhance the fine-tuning of diffusion models using human feedback datasets with direct preference optimization (DPO). Specifically, our approach selects data by solving an optimization problem to maximize three components: preference margin, text quality, and text diversity. The concept of preference margin is used to identify samples that contain high informational value to address the noisy nature of feedback dataset, which is calculated using a proxy reward model. Additionally, we incorporate text quality, assessed by large language models to prevent harmful contents, and consider text diversity through a k-nearest neighbor entropy estimator to improve generalization. Finally, we integrate all these components into an optimization process, with approximating the solution by assigning importance score to each data pair and selecting the most important ones. As a result, our method efficiently filters data automatically, without the need for manual intervention, and can be applied to any large-scale dataset. Experimental results show that FiFA significantly enhances training stability and achieves better performance, being preferred by humans 17% more, while using less than 0.5% of the full data and thus 1% of the GPU hours compared to utilizing full human feedback datasets.
- Abstract(参考訳): 人間のフィードバックによる微調整テキスト・画像拡散モデルは、モデル行動と人間の意図を整合させる効果的な方法である。
しかしながら、このアライメントプロセスは、人間のフィードバックデータセットにある大きなサイズとノイズのために、しばしば緩やかな収束に悩まされる。
本研究では,直接選好最適化(DPO)を用いた人間のフィードバックデータセットを用いた拡散モデルの微調整を強化するために設計された,新しい自動データフィルタリングアルゴリズムであるFiFAを提案する。
具体的には、最適化問題を解くことでデータを選択することで、好みのマージン、テキストの品質、テキストの多様性の3つの要素を最大化する。
選好マージンの概念は、フィードバックデータセットのノイズの性質に対処するため、高い情報値を含むサンプルを特定するために用いられ、これはプロキシ報酬モデルを用いて計算される。
さらに,大きな言語モデルで評価されたテキスト品質を組み込んで有害なコンテンツを防止するとともに,k-nearest 隣のエントロピー推定器を用いてテキストの多様性を考慮し,一般化を改善する。
最後に、これらすべてのコンポーネントを最適化プロセスに統合し、各データペアに重要なスコアを割り当て、最も重要なコンポーネントを選択することで、ソリューションを近似する。
その結果,手作業による介入を必要とせずにデータを自動的にフィルタリングし,大規模データセットに適用できることがわかった。
実験結果から、FiFAはトレーニングの安定性を著しく向上し、人間よりも17%向上し、フルデータの0.5%未満を使用でき、フルヒューマンフィードバックデータセットを使用する場合に比べてGPU時間の1%が有効であることがわかった。
関連論文リスト
- Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Optimizing Language Models for Human Preferences is a Causal Inference Problem [41.59906798328058]
直接結果データセットからの人間の嗜好に対する言語モデル最適化について検討する。
まず,言語モデルの最適化を因果問題と見なして,モデルがテキストと結果の関係を正しく学習することを保証する。
我々はCPOを2倍の頑健なCPOで拡張し、従属目的の分散を低減し、バイアスに対する確実な強い保証を維持します。
論文 参考訳(メタデータ) (2024-02-22T21:36:07Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Infinite Recommendation Networks: A Data-Centric Approach [8.044430277912936]
Neural Tangent Kernelを活用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダであるinfty$-AEを考案します。
また、小型で高忠実なデータ要約を合成するためのDistill-CFを開発した。
我々は、最初のデータセットサイズの0.1%に満たない完全なデータセット上で、infty$-AEのパフォーマンスの96-105%を観察した。
論文 参考訳(メタデータ) (2022-06-03T00:34:13Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。