論文の概要: DSPO: Direct Semantic Preference Optimization for Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2504.15176v1
- Date: Mon, 21 Apr 2025 15:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 16:07:08.056574
- Title: DSPO: Direct Semantic Preference Optimization for Real-World Image Super-Resolution
- Title(参考訳): DSPO:リアルタイム画像スーパーリゾリューションのための直接意味的選好最適化
- Authors: Miaomiao Cai, Simiao Li, Wei Li, Xudong Huang, Hanting Chen, Jie Hu, Yunhe Wang,
- Abstract要約: 本稿では,大規模言語モデルやテキスト・トゥ・イメージタスクに適用したReal-ISRに人間の嗜好アライメントを導入する。
そこで本研究では,DSPO(Direct Semantic Preference Optimization)を提案する。
DSPOは、プラグ・アンド・プレイのソリューションとして、ワンステップとマルチステップのSRフレームワークの両方で非常に効果的であることが証明されている。
- 参考スコア(独自算出の注目度): 24.460369372304807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have improved Real-World Image Super-Resolution (Real-ISR), but existing methods lack human feedback integration, risking misalignment with human preference and may leading to artifacts, hallucinations and harmful content generation. To this end, we are the first to introduce human preference alignment into Real-ISR, a technique that has been successfully applied in Large Language Models and Text-to-Image tasks to effectively enhance the alignment of generated outputs with human preferences. Specifically, we introduce Direct Preference Optimization (DPO) into Real-ISR to achieve alignment, where DPO serves as a general alignment technique that directly learns from the human preference dataset. Nevertheless, unlike high-level tasks, the pixel-level reconstruction objectives of Real-ISR are difficult to reconcile with the image-level preferences of DPO, which can lead to the DPO being overly sensitive to local anomalies, leading to reduced generation quality. To resolve this dichotomy, we propose Direct Semantic Preference Optimization (DSPO) to align instance-level human preferences by incorporating semantic guidance, which is through two strategies: (a) semantic instance alignment strategy, implementing instance-level alignment to ensure fine-grained perceptual consistency, and (b) user description feedback strategy, mitigating hallucinations through semantic textual feedback on instance-level images. As a plug-and-play solution, DSPO proves highly effective in both one-step and multi-step SR frameworks.
- Abstract(参考訳): 拡散モデルの最近の進歩は、Real-World Image Super-Resolution (Real-ISR)を改善しているが、既存の手法では、人間のフィードバック統合が欠如し、人間の嗜好に反し、人工物、幻覚、有害なコンテンツ生成につながる可能性がある。
この目的のために,我々はまず,人間の嗜好のアライメントをReal-ISRに導入する。これは大規模言語モデルやテキスト・トゥ・イメージ・タスクに成功して,生成した出力と人間の嗜好のアライメントを効果的に向上させる技術である。
具体的には、DPOが人間の嗜好データセットから直接学習する一般的なアライメント技術として機能する、アライメントを実現するために、DPOをReal-ISRに導入する。
しかし、高レベルなタスクとは異なり、Real-ISRの画素レベルの再構築目的はDPOのイメージレベルの嗜好と整合するのは難しいため、DPOは局所的な異常に過度に敏感になり、生成品質が低下する可能性がある。
この二分法を解決するために,2つの戦略を通じて意味的ガイダンスを組み込むことにより,インスタンスレベルの人間の嗜好を調整するための直接意味的選好最適化(DSPO)を提案する。
(a)セマンティックなインスタンスアライメント戦略、きめ細かい知覚整合性を保証するインスタンスレベルのアライメントの実装、そして
b) ユーザ記述フィードバック戦略, インスタンスレベルの画像に対する意味的テキストフィードバックによる幻覚の緩和。
DSPOは、プラグ・アンド・プレイのソリューションとして、ワンステップとマルチステップのSRフレームワークの両方で非常に効果的であることが証明されている。
関連論文リスト
- SUDO: Enhancing Text-to-Image Diffusion Models with Self-Supervised Direct Preference Optimization [19.087540230261684]
従来のテキスト・画像拡散モデルでは、教師付き微調整を用いて事前訓練されたベースモデルを強化するのが一般的である。
我々は,画素レベルの細かな詳細とグローバルな画質の両方を最適化する新しいパラダイムであるSelf-SUpervised Direct preference Optimization (SUDO)を紹介する。
教師付き微調整の効果的な代替として、SUDOはどんなテキスト・画像拡散モデルにもシームレスに適用できる。
論文 参考訳(メタデータ) (2025-04-20T08:18:27Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [54.654823811482665]
大規模言語モデル (LLM) は、人間の値に対して出力を制御するための優先順位付け手法にますます依存している。
近年のアプローチは、スケーラブルな代替手段としてLLMによって生成された合成データに転換されている。
そこで我々は,そのようなシフトが存在する場合の優先調整を改善する新しい分散対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Distributionally Robust Direct Preference Optimization [15.328510632723505]
大規模言語モデルを人間の好みに合わせる上での大きな課題は、分散シフトの問題である。
WDPO(Wasserstein DPO)とKLDPO(Kullback-Leibler DPO)という,分散的に堅牢な直接選好最適化アルゴリズムを新たに開発した。
本実験は,WDPOとKLDPOが優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示すものである。
論文 参考訳(メタデータ) (2025-02-04T02:03:19Z) - The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier [0.5120567378386615]
大規模言語モデル(LLM)の整合化のための統一的アプローチを提案する。
好みと補助目的の単純な分解に基づいて、ユーザとデザイナーの好みを最適化するためにLLMをチューニングできる。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Revisiting Deep Subspace Alignment for Unsupervised Domain Adaptation [42.16718847243166]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインからラベル付きターゲットドメインへの知識の転送と適応を目的としている。
伝統的に、部分空間に基づく手法はこの問題に対する重要な解のクラスを形成する。
本稿では,UDAにおける部分空間アライメントの利用を再検討し,一貫した一般化をもたらす新しい適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-05T20:16:38Z) - Domain Adaptive Person Re-Identification via Coupling Optimization [58.567492812339566]
ドメイン適応型人物再識別(ReID)は、ドメインのギャップとターゲットシナリオに対するアノテーションの不足のために困難である。
本稿では,ドメイン不変写像 (DIM) 法とグローバル局所距離最適化 (GLO) を含む結合最適化手法を提案する。
GLOはターゲットドメインの教師なし設定でReIDモデルをトレーニングするために設計されている。
論文 参考訳(メタデータ) (2020-11-06T14:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。