論文の概要: BideDPO: Conditional Image Generation with Simultaneous Text and Condition Alignment
- arxiv url: http://arxiv.org/abs/2511.19268v1
- Date: Mon, 24 Nov 2025 16:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.308776
- Title: BideDPO: Conditional Image Generation with Simultaneous Text and Condition Alignment
- Title(参考訳): BideDPO:同時テキストと条件アライメントによる条件画像生成
- Authors: Dewei Zhou, Mingwei Li, Zongxin Yang, Yu Lu, Yunqiu Xu, Zhizhong Wang, Zeyi Huang, Yi Yang,
- Abstract要約: 条件付き画像生成は、構造的、空間的、スタイリスティックな事前のテキストと画像の合成を強化する。
現在の手法では、ソース間の競合を処理する上で、課題に直面している。
双方向分離型DPOフレームワーク(BideDPO)を提案する。
- 参考スコア(独自算出の注目度): 53.94214054918876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conditional image generation enhances text-to-image synthesis with structural, spatial, or stylistic priors, but current methods face challenges in handling conflicts between sources. These include 1) input-level conflicts, where the conditioning image contradicts the text prompt, and 2) model-bias conflicts, where generative biases disrupt alignment even when conditions match the text. Addressing these conflicts requires nuanced solutions, which standard supervised fine-tuning struggles to provide. Preference-based optimization techniques like Direct Preference Optimization (DPO) show promise but are limited by gradient entanglement between text and condition signals and lack disentangled training data for multi-constraint tasks. To overcome this, we propose a bidirectionally decoupled DPO framework (BideDPO). Our method creates two disentangled preference pairs-one for the condition and one for the text-to reduce gradient entanglement. The influence of pairs is managed using an Adaptive Loss Balancing strategy for balanced optimization. We introduce an automated data pipeline to sample model outputs and generate conflict-aware data. This process is embedded in an iterative optimization strategy that refines both the model and the data. We construct a DualAlign benchmark to evaluate conflict resolution between text and condition. Experiments show BideDPO significantly improves text success rates (e.g., +35%) and condition adherence. We also validate our approach using the COCO dataset. Project Pages: https://limuloo.github.io/BideDPO/.
- Abstract(参考訳): 条件付き画像生成は、構造的、空間的、またはスタイリスティックな事前のテキストと画像の合成を強化するが、現在の手法はソース間の衝突を扱う際の課題に直面している。
以下を含む。
1) 条件付画像がテキストプロンプトと矛盾する入力レベルのコンフリクト
2) モデルバイアスは, 条件がテキストと一致する場合でも, 生成バイアスがアライメントを阻害する。
これらの対立に対処するにはニュアンスドソリューションが必要である。
直接選好最適化(DPO)のような嗜好に基づく最適化手法は、将来性を示すが、テキストと条件信号の勾配の絡み合いによって制限され、マルチ制約タスクのための非絡み合いのトレーニングデータが欠如している。
そこで本研究では,双方向分離型DPOフレームワーク(BideDPO)を提案する。
本手法では,2つの不整合選好ペアを条件として生成する。
ペアの影響は、バランスの取れた最適化のためにアダプティブロスバランス戦略を用いて管理される。
自動データパイプラインを導入し、モデル出力をサンプリングし、競合認識データを生成する。
このプロセスは、モデルとデータの両方を洗練させる反復最適化戦略に組み込まれます。
テキストと条件間の競合解決を評価するために,DualAlignベンチマークを構築した。
実験により、BideDPOはテキストの成功率(例:+35%)と条件順守を著しく改善することが示された。
また、COCOデータセットを用いてアプローチを検証する。
プロジェクトページ: https://limuloo.github.io/BideDPO/。
関連論文リスト
- RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling [59.088798018184235]
textbfRAPO++は、クロスプラットフォームのプロンプト最適化フレームワークである。
トレーニングデータの整合性向上、テスト時の反復スケーリング、大規模言語モデルの微調整を統一する。
RAPO++は意味的アライメント、構成的推論、時間的安定性、物理的妥当性において大きな進歩を遂げている。
論文 参考訳(メタデータ) (2025-10-23T04:45:09Z) - Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs [36.42060582800515]
本稿では,T2Iモデルの"フリーランチ"アライメントを可能にするフレームワークであるText Preference Optimization (TPO)を紹介する。
TPOは、ミスマッチしたプロンプトよりもマッチしたプロンプトを好むようにモデルを訓練することで機能する。
我々のフレームワークは汎用的で、既存の嗜好ベースのアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2025-09-30T04:32:34Z) - RankPO: Preference Optimization for Job-Talent Matching [7.385902340910447]
大規模言語モデル(LLM)のための2段階トレーニングフレームワークを提案する。
最初の段階では、実際のマッチングルールから構築されたデータセット上でモデルをトレーニングするために、対照的な学習アプローチが使用される。
第2段階では、AIで計算したペアの選好とモデルを整合させるために、直接選好最適化(DPO)にインスパイアされた、新しい選好に基づく微調整手法を導入する。
論文 参考訳(メタデータ) (2025-03-13T10:14:37Z) - Aligning Text to Image in Diffusion Models is Easier Than You Think [47.623236425067326]
SoftREPAは、表現アライメントにソフトテキストトークンを活用する軽量でコントラスト的な微調整戦略である。
本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文 参考訳(メタデータ) (2025-03-11T10:14:22Z) - C2-DPO: Constrained Controlled Direct Preference Optimization [22.730518243326394]
AIにおけるアライメント問題を解決するための有望なアプローチとして、直接選好最適化(textttDPO)が登場している。
サンプル内応答におけるKLガードレールのみを定義する最適化問題から始めることで,textttDPO損失を導出できることを示す。
論文 参考訳(メタデータ) (2025-02-22T00:38:44Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Text-Anchored Score Composition: Tackling Condition Misalignment in Text-to-Image Diffusion Models [35.02969643344228]
既存のモデルの制御性を改善するために,テキストアンコールスコア合成(TASC)と呼ばれる学習自由アプローチを提案する。
そこで本研究では,これらを個別に計算した結果に対して,新たな競合を回避するためのクロスアテンション機構を用いてアテンション操作を提案する。
論文 参考訳(メタデータ) (2023-06-26T03:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。