論文の概要: Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2604.24952v1
- Date: Mon, 27 Apr 2026 19:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.575809
- Title: Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization
- Title(参考訳): 雑音の選好からの学習--直接選好最適化のための半監督学習アプローチ
- Authors: Xinxin Liu, Ming Li, Zonglin Lyu, Yuzhang Shang, Chen Chen,
- Abstract要約: 多次元の選好をバイナリラベルに圧縮すると、矛盾する勾配信号が生成されることを示す。
一貫性のあるペアをクリーンなラベル付きデータとして扱い、ノイズの多いラベルなしデータとして競合する半教師付きアプローチであるSemi-DPOを提案する。
- 参考スコア(独自算出の注目度): 22.08509360975174
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human visual preferences are inherently multi-dimensional, encompassing aesthetics, detail fidelity, and semantic alignment. However, existing datasets provide only single, holistic annotations, resulting in severe label noise: images that excel in some dimensions but are deficient in others are simply marked as winner or loser. We theoretically demonstrate that compressing multi-dimensional preferences into binary labels generates conflicting gradient signals that misguide Diffusion Direct Preference Optimization (DPO). To address this, we propose Semi-DPO, a semi-supervised approach that treats consistent pairs as clean labeled data and conflicting ones as noisy unlabeled data. Our method starts by training on a consensus-filtered clean subset, then uses this model as an implicit classifier to generate pseudo-labels for the noisy set for iterative refinement. Experimental results demonstrate that Semi-DPO achieves state-of-the-art performance and significantly improves alignment with complex human preferences, without requiring additional human annotation or explicit reward models during training. We will release our code and models at: https://github.com/L-CodingSpace/semi-dpo
- Abstract(参考訳): 人間の視覚的嗜好は本質的に多次元であり、美学、細部への忠実さ、意味的なアライメントを含んでいる。
しかし、既存のデータセットは単一で全体論的なアノテーションのみを提供しており、重度なラベルノイズをもたらす:ある次元で排他的だが、他の次元では不十分な画像は、単に勝者または敗者としてマークされる。
理論的には、多次元の選好をバイナリラベルに圧縮すると、拡散直接選好最適化(DPO)を誤る競合する勾配信号が生成される。
そこで本研究では,一貫したペアをクリーンなラベル付きデータとして扱い,ノイズの多いラベル付きデータとして競合する半教師付きアプローチであるSemi-DPOを提案する。
提案手法は,まずコンセンサスフィルタによるクリーンなサブセットのトレーニングから始まり,このモデルを暗黙の分類器として使用し,ノイズセットの擬似ラベルを生成する。
実験により,Semi-DPOは,訓練中に付加的な人的アノテーションや明示的な報酬モデルを必要とすることなく,最先端のパフォーマンスを実現し,複雑な人的嗜好との整合性を大幅に向上することが示された。
コードとモデルについては、https://github.com/L-CodingSpace/semi-dpoで公開します。
関連論文リスト
- Direct Diffusion Score Preference Optimization via Stepwise Contrastive Policy-Pair Supervision [14.612317970237436]
拡散モデルは、テキスト・ツー・イメージ合成のような生成タスクにおいて印象的な結果を得た。
彼らはしばしば、アウトプットを曖昧なユーザ意図と完全に整合させ、一貫した美的品質を維持するのに苦労する。
既存の嗜好ベースのトレーニング手法は、これらの問題に対処するのに役立つが、コストが高く、潜在的にノイズの多い人間のデータセットに依存している。
論文 参考訳(メタデータ) (2025-12-29T12:46:07Z) - Bridging Weakly-Supervised Learning and VLM Distillation: Noisy Partial Label Learning for Efficient Downstream Adaptation [51.67328507400985]
ノイズ部分ラベル学習(NPLL)では、各トレーニングサンプルは、複数のノイズアノテータによって注釈付けされた候補ラベルのセットに関連付けられている。
本稿では、事前学習された視覚言語モデルによって注釈付けされた部分ラベルからの学習に焦点を当てる。
革新的な協調整合正則化(Co-Reg)法を提案する。
論文 参考訳(メタデータ) (2025-06-03T12:48:54Z) - Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。
本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。
提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文 参考訳(メタデータ) (2025-06-03T09:47:22Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for
Severe Label Noise [4.90148689564172]
実世界のデータセットには、データセットのどのクラスにも意味のないノイズの多いラベルサンプルが含まれている。
最先端の手法の多くは、IDラベル付きノイズサンプルを半教師付き学習のためのラベルなしデータとして利用する。
自己指導型トレーニングの利点を生かして,すべてのトレーニングデータからの情報を活用することを提案する。
論文 参考訳(メタデータ) (2023-08-13T23:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。