論文の概要: InpaintDPO: Mitigating Spatial Relationship Hallucinations in Foreground-conditioned Inpainting via Diverse Preference Optimization
- arxiv url: http://arxiv.org/abs/2512.15644v1
- Date: Tue, 16 Dec 2025 17:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.08725
- Title: InpaintDPO: Mitigating Spatial Relationship Hallucinations in Foreground-conditioned Inpainting via Diverse Preference Optimization
- Title(参考訳): InpaintDPO:フォアグラウンド条件付きインペインティングにおける空間的関係の幻覚の相互参照最適化による軽減
- Authors: Qirui Li, Yizhe Tang, Ran Yi, Guangben Lu, Fangyuan Zou, Peng Shu, Huan Yu, Jie Jiang,
- Abstract要約: InpaintDPOは、フォアグラウンド条件のインペイントにおける空間的合理性に特化した、最初の直接参照最適化フレームワークである。
MaskDPOは背景空間関係を強化するため、背景のみに好みの最適化を限定する。
条件非対称選好最適化は、文脈認識を促進するためにグローバルな選好最適化を適用する。
共有共通性優先最適化は、高品質な勝利サンプル間の空間共通性に対するモデルの理解を高める。
- 参考スコア(独自算出の注目度): 30.65393131603008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foreground-conditioned inpainting, which aims at generating a harmonious background for a given foreground subject based on the text prompt, is an important subfield in controllable image generation. A common challenge in current methods, however, is the occurrence of Spatial Relationship Hallucinations between the foreground subject and the generated background, including inappropriate scale, positional relationships, and viewpoints. Critically, the subjective nature of spatial rationality makes it challenging to quantify, hindering the use of traditional reward-based RLHF methods. To address this issue, we propose InpaintDPO, the first Direct Preference Optimization (DPO) based framework dedicated to spatial rationality in foreground-conditioned inpainting, ensuring plausible spatial relationships between foreground and background elements. To resolve the gradient conflicts in standard DPO caused by identical foreground in win-lose pairs, we propose MaskDPO, which confines preference optimization exclusively to the background to enhance background spatial relationships, while retaining the inpainting loss in the foreground region for robust foreground preservation. To enhance coherence at the foreground-background boundary, we propose Conditional Asymmetric Preference Optimization, which samples pairs with differentiated cropping operations and applies global preference optimization to promote contextual awareness and enhance boundary coherence. Finally, based on the observation that winning samples share a commonality in plausible spatial relationships, we propose Shared Commonality Preference Optimization to enhance the model's understanding of spatial commonality across high-quality winning samples, further promoting shared spatial rationality.
- Abstract(参考訳): テキストプロンプトに基づいて、所定の前景対象に対して調和した背景を生成することを目的とした前景条件付き塗装は、制御可能な画像生成において重要なサブフィールドである。
しかし、現在の手法における一般的な課題は、不適切なスケール、位置関係、視点を含む、前景の被写体と生成された背景との間の空間的関係の幻覚の発生である。
批判的に言えば、空間的合理性の主観的な性質は、従来の報酬に基づくRLHF法の使用を妨げる、定量化を困難にしている。
この問題に対処するため、我々は、前景条件付き塗装における空間的合理性に着目し、前景と背景要素間の空間的関係を確実にする、最初の直接選好最適化(DPO)ベースのフレームワークであるInpaintDPOを提案する。
ウインロース対における同一のフォアグラウンドによる標準DPOの勾配の矛盾を解決するために,フォアグラウンド保存のために,フォアグラウンド領域の塗装損失を保ちつつ,背景空間の関係性を高めるため,背景のみに優先最適化を限定するMaskDPOを提案する。
本研究では,前景と後景の境界におけるコヒーレンスを高めるために,異なる収穫操作でペアをサンプリングし,文脈認識を促進し,境界コヒーレンスを高めるためにグローバルな選好最適化を適用する条件非対称選好最適化を提案する。
最後に, 評価可能な空間的関係において, 入賞者が共通性を共有するという観察に基づいて, モデルが高品質な入賞者間で空間的共通性を理解することを促進し, 共有空間的合理性を促進するための共有共通性優先最適化を提案する。
関連論文リスト
- Aligning Latent Spaces with Flow Priors [72.24305287508474]
本稿では,学習可能な潜在空間を任意の目標分布に整合させるための新しいフレームワークを提案する。
特に,提案手法は計算コストの高い確率評価を排除し,最適化時のODE解決を回避する。
論文 参考訳(メタデータ) (2025-06-05T16:59:53Z) - DSPO: Direct Semantic Preference Optimization for Real-World Image Super-Resolution [24.460369372304807]
本稿では,大規模言語モデルやテキスト・トゥ・イメージタスクに適用したReal-ISRに人間の嗜好アライメントを導入する。
そこで本研究では,DSPO(Direct Semantic Preference Optimization)を提案する。
DSPOは、プラグ・アンド・プレイのソリューションとして、ワンステップとマルチステップのSRフレームワークの両方で非常に効果的であることが証明されている。
論文 参考訳(メタデータ) (2025-04-21T15:35:48Z) - On-the-fly Preference Alignment via Principle-Guided Decoding [27.50204023448716]
モデル出力を推論中に人間の好みに合わせるために、OPAD(Principle-Guided Decoding)によるオンザフライの優先度アライメントを導入する。
OPADは、一般的なタスクとパーソナライズされたアライメントタスクの両方において、競争力または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-20T02:23:09Z) - Boundless Across Domains: A New Paradigm of Adaptive Feature and Cross-Attention for Domain Generalization in Medical Image Segmentation [1.93061220186624]
ドメイン不変表現学習は、ドメイン一般化の強力な方法である。
従来のアプローチでは、高い計算要求、トレーニングの不安定性、高次元データによる限られた有効性といった課題に直面していた。
本研究では,分布空間を探索しながら分布外サンプルを生成する適応的特徴ブレンディング(AFB)手法を提案する。
論文 参考訳(メタデータ) (2024-11-22T12:06:24Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Relation Matters: Foreground-aware Graph-based Relational Reasoning for
Domain Adaptive Object Detection [81.07378219410182]
我々は、FGRR(Fearground-aware Graph-based Reasoning)というドメインDのための新しい汎用フレームワークを提案する。
FGRRはグラフ構造を検出パイプラインに組み込んで、ドメイン内およびドメイン間フォアグラウンドオブジェクト関係を明示的にモデル化する。
実験の結果、提案したFGRRは4つのDomainDベンチマークの最先端よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-06-06T05:12:48Z) - Image Harmonization with Region-wise Contrastive Learning [51.309905690367835]
本稿では,外部スタイルの融合と領域単位のコントラスト学習方式を備えた新しい画像調和フレームワークを提案する。
提案手法は, 前景と背景の相互情報を最大化することにより, 対応する正と負のサンプルをまとめることを試みる。
論文 参考訳(メタデータ) (2022-05-27T15:46:55Z) - Foreground-Aware Relation Network for Geospatial Object Segmentation in
High Spatial Resolution Remote Sensing Imagery [6.4901484665257545]
地空間オブジェクトセグメンテーションは、常に大きなスケールの変動、背景のクラス内ばらつき、前景と背景の不均衡に直面している。
本稿では,フォアグラウンド・アウェア・リレーション・ネットワーク(FarSeg)を提案する。
実験により、FarSegは最先端の汎用セマンティックセグメンテーション法よりも優れており、速度と精度のトレードオフがより良好であることが示された。
論文 参考訳(メタデータ) (2020-11-19T10:57:43Z) - Pixel-Level Cycle Association: A New Perspective for Domain Adaptive
Semantic Segmentation [169.82760468633236]
本稿では,ソースとターゲットの画素ペア間の画素レベルサイクルの関連性を構築することを提案する。
我々の手法は1段階のエンドツーエンドで訓練でき、追加のパラメータは導入しない。
論文 参考訳(メタデータ) (2020-10-31T00:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。