Fugu-MT 論文翻訳(概要): Curriculum Direct Preference Optimization for Diffusion and Consistency Models

論文の概要: Curriculum Direct Preference Optimization for Diffusion and Consistency Models

arxiv url: http://arxiv.org/abs/2405.13637v1
Date: Wed, 22 May 2024 13:36:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 00:04:43.798012
Title: Curriculum Direct Preference Optimization for Diffusion and Consistency Models
Title（参考訳）: 拡散・一貫性モデルのためのカリキュラム直接選好最適化
Authors: Florinel-Alin Croitoru, Vlad Hondru, Radu Tudor Ionescu, Nicu Sebe, Mubarak Shah,
Abstract要約: テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新しい拡張版を提案する。我々のアプローチであるCurriculum DPOは、3つのベンチマークにおける最先端の微調整手法と比較される。
参考スコア（独自算出の注目度）: 110.08057135882356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Direct Preference Optimization (DPO) has been proposed as an effective and efficient alternative to reinforcement learning from human feedback (RLHF). In this paper, we propose a novel and enhanced version of DPO based on curriculum learning for text-to-image generation. Our method is divided into two training stages. First, a ranking of the examples generated for each prompt is obtained by employing a reward model. Then, increasingly difficult pairs of examples are sampled and provided to a text-to-image generative (diffusion or consistency) model. Generated samples that are far apart in the ranking are considered to form easy pairs, while those that are close in the ranking form hard pairs. In other words, we use the rank difference between samples as a measure of difficulty. The sampled pairs are split into batches according to their difficulty levels, which are gradually used to train the generative model. Our approach, Curriculum DPO, is compared against state-of-the-art fine-tuning approaches on three benchmarks, outperforming the competing methods in terms of text alignment, aesthetics and human preference. Our code is available at https://anonymous.4open.science/r/Curriculum-DPO-EE14.
Abstract（参考訳）: 人的フィードバック(RLHF)からの強化学習の効果的な代替手段として、直接選好最適化(DPO)が提案されている。本稿では,テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新たな拡張版を提案する。我々の方法は2つの訓練段階に分けられる。まず、報酬モデルを用いて各プロンプト毎に生成された例のランキングを得る。そして、ますます難しい例のペアをサンプル化し、テキストから画像への生成(拡散または一貫性)モデルに提供します。ランキングで遠く離れた生成標本は容易なペアとなり、ランキングで近いものは硬いペアになると考えられている。言い換えれば、サンプル間のランク差を難易度として用いる。サンプルペアは、それらの難易度に応じてバッチに分割され、徐々に生成モデルを訓練するために使用される。提案手法であるCurriculum DPOは,3つのベンチマークにおける最先端の微調整手法と比較し,テキストアライメント,美学,人的嗜好の観点から比較した。私たちのコードはhttps://anonymous.4open.science/r/Curriculum-DPO-EE14で公開されています。

関連論文リスト

Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。 RLの有効性はスパース報酬の挑戦によって制限される。 $textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文参考訳（メタデータ） (2025-03-14T09:45:19Z)
RankPO: Preference Optimization for Job-Talent Matching [7.385902340910447]
大規模言語モデル(LLM)のための2段階トレーニングフレームワークを提案する。最初の段階では、実際のマッチングルールから構築されたデータセット上でモデルをトレーニングするために、対照的な学習アプローチが使用される。第2段階では、AIで計算したペアの選好とモデルを整合させるために、直接選好最適化(DPO)にインスパイアされた、新しい選好に基づく微調整手法を導入する。
論文参考訳（メタデータ） (2025-03-13T10:14:37Z)
SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文参考訳（メタデータ） (2024-10-07T17:56:53Z)
PopAlign: Population-Level Alignment for Fair Text-to-Image Generation [26.457571615782985]
人口レベルの選好最適化のための新しいアプローチであるPopAlignを紹介する。我々は,PopAlignが事前学習したT2Iモデルのバイアスを著しく軽減し,生成品質をほぼ保っていることを示す。
論文参考訳（メタデータ） (2024-06-28T05:38:32Z)
Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文参考訳（メタデータ） (2024-05-23T17:17:27Z)
Diversified in-domain synthesis with efficient fine-tuning for few-shot classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文参考訳（メタデータ） (2023-12-05T17:18:09Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
Prompt Tuning Pushes Farther, Contrastive Learning Pulls Closer: A Two-Stage Approach to Mitigate Social Biases [13.837927115198308]
本稿では,コントラスト学習と連続的プロンプト拡張を用いた逆トレーニングによる2段階脱バイアスモデルを提案する。我々のアプローチは、トレーニングプロセスに困難を加えることで、より強固なデバイアス性能を達成するためのモデルを導出します。
論文参考訳（メタデータ） (2023-07-04T09:35:03Z)
Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文参考訳（メタデータ） (2021-09-15T22:46:19Z)
Learning Fast Sample Re-weighting Without Reward Data [41.92662851886547]
本稿では,新たな報酬データを必要としない学習ベース高速サンプル再重み付け手法を提案する。実験により,提案手法は,ラベルノイズや長い尾の認識に関する芸術的状況と比較して,競争力のある結果が得られることを示した。
論文参考訳（メタデータ） (2021-09-07T17:30:56Z)
Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-15T10:08:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。