論文の概要: Automated Filtering of Human Feedback Data for Aligning Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.10166v1
- Date: Mon, 14 Oct 2024 05:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:34:41.311892
- Title: Automated Filtering of Human Feedback Data for Aligning Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおける人間のフィードバックデータの自動フィルタリング
- Authors: Yongjin Yang, Sihyeon Kim, Hojung Jung, Sangmin Bae, SangMook Kim, Se-Young Yun, Kimin Lee,
- Abstract要約: 人間のフィードバックによる微調整テキスト・画像拡散モデルは、モデル行動と人間の意図を整合させる効果的な方法である。
しかしながら、このアライメントプロセスは、人間のフィードバックデータセットにある大きなサイズとノイズのために、しばしば緩やかな収束に悩まされる。
本研究では,人間のフィードバックデータセットを用いた拡散モデルの微調整性向上を目的とした,新しい自動データフィルタリングアルゴリズムFiFAを提案する。
- 参考スコア(独自算出の注目度): 36.84880190385986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning text-to-image diffusion models with human feedback is an effective method for aligning model behavior with human intentions. However, this alignment process often suffers from slow convergence due to the large size and noise present in human feedback datasets. In this work, we propose FiFA, a novel automated data filtering algorithm designed to enhance the fine-tuning of diffusion models using human feedback datasets with direct preference optimization (DPO). Specifically, our approach selects data by solving an optimization problem to maximize three components: preference margin, text quality, and text diversity. The concept of preference margin is used to identify samples that contain high informational value to address the noisy nature of feedback dataset, which is calculated using a proxy reward model. Additionally, we incorporate text quality, assessed by large language models to prevent harmful contents, and consider text diversity through a k-nearest neighbor entropy estimator to improve generalization. Finally, we integrate all these components into an optimization process, with approximating the solution by assigning importance score to each data pair and selecting the most important ones. As a result, our method efficiently filters data automatically, without the need for manual intervention, and can be applied to any large-scale dataset. Experimental results show that FiFA significantly enhances training stability and achieves better performance, being preferred by humans 17% more, while using less than 0.5% of the full data and thus 1% of the GPU hours compared to utilizing full human feedback datasets.
- Abstract(参考訳): 人間のフィードバックによる微調整テキスト・画像拡散モデルは、モデル行動と人間の意図を整合させる効果的な方法である。
しかしながら、このアライメントプロセスは、人間のフィードバックデータセットにある大きなサイズとノイズのために、しばしば緩やかな収束に悩まされる。
本研究では,直接選好最適化(DPO)を用いた人間のフィードバックデータセットを用いた拡散モデルの微調整を強化するために設計された,新しい自動データフィルタリングアルゴリズムであるFiFAを提案する。
具体的には、最適化問題を解くことでデータを選択することで、好みのマージン、テキストの品質、テキストの多様性の3つの要素を最大化する。
選好マージンの概念は、フィードバックデータセットのノイズの性質に対処するため、高い情報値を含むサンプルを特定するために用いられ、これはプロキシ報酬モデルを用いて計算される。
さらに,大きな言語モデルで評価されたテキスト品質を組み込んで有害なコンテンツを防止するとともに,k-nearest 隣のエントロピー推定器を用いてテキストの多様性を考慮し,一般化を改善する。
最後に、これらすべてのコンポーネントを最適化プロセスに統合し、各データペアに重要なスコアを割り当て、最も重要なコンポーネントを選択することで、ソリューションを近似する。
その結果,手作業による介入を必要とせずにデータを自動的にフィルタリングし,大規模データセットに適用できることがわかった。
実験結果から、FiFAはトレーニングの安定性を著しく向上し、人間よりも17%向上し、フルデータの0.5%未満を使用でき、フルヒューマンフィードバックデータセットを使用する場合に比べてGPU時間の1%が有効であることがわかった。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Model-based Preference Optimization in Abstractive Summarization without Human Feedback [5.438770095369458]
人間のフィードバックを伴わずに要約能力を向上させるために,モデルベース推論最適化(MPO)を導入している。
標準要約データセットと各種測定値を用いた実験により,提案したMPOは,人間のフィードバックに頼らずに生成した要約の質を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-27T10:35:45Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data [31.507451966555383]
本稿では、画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。
さまざまなソースからの複数のキャプションに各画像が関連付けられている多様な画像テキストデータセットを収集する。
我々は、画像テキストアライメントに関する人間の微妙な理解を内在化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-11T05:57:09Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Infinite Recommendation Networks: A Data-Centric Approach [8.044430277912936]
Neural Tangent Kernelを活用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダであるinfty$-AEを考案します。
また、小型で高忠実なデータ要約を合成するためのDistill-CFを開発した。
我々は、最初のデータセットサイズの0.1%に満たない完全なデータセット上で、infty$-AEのパフォーマンスの96-105%を観察した。
論文 参考訳(メタデータ) (2022-06-03T00:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。