Fugu-MT 論文翻訳(概要): Noise Consistency Regularization for Improved Subject-Driven Image Synthesis

論文の概要: Noise Consistency Regularization for Improved Subject-Driven Image Synthesis

arxiv url: http://arxiv.org/abs/2506.06483v1
Date: Fri, 06 Jun 2025 19:17:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.290796
Title: Noise Consistency Regularization for Improved Subject-Driven Image Synthesis
Title（参考訳）: 改良された主観駆動画像合成のための雑音の整合性正規化
Authors: Yao Ni, Song Wen, Piotr Koniusz, Anoop Cherian,
Abstract要約: 微調整安定拡散は、モデルを適用して特定の対象を含む画像を生成することによって、被写体駆動画像合成を可能にする。既存の微調整手法は、モデルが確実に被写体を捕捉できない不適合と、被写体イメージを記憶し、背景の多様性を減少させる過適合の2つの主要な問題に悩まされる。拡散微調整のための2つの補助的整合性損失を提案する。第1に、事前(非対象)画像に対する予測拡散雑音が事前訓練されたモデルと一致し、忠実度が向上する。
参考スコア（独自算出の注目度）: 55.75426086791612
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning Stable Diffusion enables subject-driven image synthesis by adapting the model to generate images containing specific subjects. However, existing fine-tuning methods suffer from two key issues: underfitting, where the model fails to reliably capture subject identity, and overfitting, where it memorizes the subject image and reduces background diversity. To address these challenges, we propose two auxiliary consistency losses for diffusion fine-tuning. First, a prior consistency regularization loss ensures that the predicted diffusion noise for prior (non-subject) images remains consistent with that of the pretrained model, improving fidelity. Second, a subject consistency regularization loss enhances the fine-tuned model's robustness to multiplicative noise modulated latent code, helping to preserve subject identity while improving diversity. Our experimental results demonstrate that incorporating these losses into fine-tuning not only preserves subject identity but also enhances image diversity, outperforming DreamBooth in terms of CLIP scores, background variation, and overall visual quality.
Abstract（参考訳）: 微調整安定拡散は、モデルを適用して特定の対象を含む画像を生成することによって、被写体駆動画像合成を可能にする。しかし、既存の微調整手法は、被写体識別を確実に捕捉できない不適合と、被写体イメージを記憶し、背景の多様性を低下させる過適合の2つの主要な問題に悩まされている。これらの課題に対処するために,拡散微調整のための2つの補助的整合性損失を提案する。第一に、事前整合正則化損失は、事前(非対象)画像に対する予測拡散ノイズが事前訓練されたモデルと一致し、忠実度が向上することを保証する。第二に、主観的整合性正規化損失は、乗法的雑音変調潜在符号に対する微調整モデルの堅牢性を高め、多様性を改善しながら主観的同一性を維持するのに役立つ。実験の結果、これらの損失を微調整に取り入れることで、被写体識別を保存できるだけでなく、画像の多様性も向上し、CLIPスコア、背景変動、全体的な視覚的品質においてドリームブースを上回っていることが示された。

関連論文リスト

A Simple Combination of Diffusion Models for Better Quality Trade-Offs in Image Denoising [43.44633086975204]
本稿では,事前学習した拡散モデルを活用するための直感的な手法を提案する。次に,提案する線形結合拡散デノイザについて紹介する。 LCDDは最先端のパフォーマンスを達成し、制御され、よく機能するトレードオフを提供する。
論文参考訳（メタデータ） (2025-03-18T19:02:19Z)
Frequency-Aware Guidance for Blind Image Restoration via Diffusion Models [20.898262207229873]
ブラインド画像復元は、低レベルの視覚タスクにおいて重要な課題である。誘導拡散モデルは、視覚的画像復元において有望な結果を得た。本稿では,様々な拡散モデルにプラグイン・アンド・プレイ方式で組み込むことができる新しい周波数対応誘導損失を提案する。
論文参考訳（メタデータ） (2024-11-19T12:18:16Z)
Confidence-aware Denoised Fine-tuning of Off-the-shelf Models for Certified Robustness [56.2479170374811]
我々はFT-CADIS(Fun Fine-Tuning with Confidence-Aware Denoized Image Selection)を紹介する。 FT-CADISは、既成の分類器の信頼性が、視覚的平滑化中の幻覚像を効果的に識別できるという観察に着想を得たものである。様々なベンチマークにおいて、すべての$ell$-adversary半径にわたる偏微分平滑化法のうち、最先端の証明されたロバスト性を確立している。
論文参考訳（メタデータ） (2024-11-13T09:13:20Z)
FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process [120.91393949012014]
FreeEnhanceは、既製の画像拡散モデルを用いたコンテンツ一貫性のある画像強調のためのフレームワークである。ノイズ発生段階では、FreeEnhanceは、元の画像の高頻度パターンを保存するために、より周波数の高い領域により軽いノイズを加えるように考案されている。この段階では3つの目標特性を予測された雑音の規則化の制約として提示し,高精度で視覚的品質の高い画像の強調を行う。
論文参考訳（メタデータ） (2024-09-11T17:58:50Z)
Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文参考訳（メタデータ） (2023-12-10T22:07:42Z)
Robustness-Guided Image Synthesis for Data-Free Quantization [15.91924736452861]
合成画像のセマンティクスを強化し,画像の多様性を向上させるために,ロバストネス誘導画像合成(RIS)を提案する。 RISは、合成画像のセマンティクスを強化し、画像の多様性を改善するための、シンプルだが効果的な方法である。我々は、データフリーな量子化の様々な設定に対して最先端の性能を実現し、他のデータフリーな圧縮タスクにも拡張できる。
論文参考訳（メタデータ） (2023-10-05T16:39:14Z)
Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文参考訳（メタデータ） (2023-08-28T08:47:06Z)
Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。 CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文参考訳（メタデータ） (2022-07-21T22:19:17Z)
Robust Single Image Dehazing Based on Consistent and Contrast-Assisted Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。我々の手法は最先端のアプローチを大きく上回っている。
論文参考訳（メタデータ） (2022-03-29T08:11:04Z)
Human Pose Transfer with Augmented Disentangled Feature Consistency [28.744108771350078]
人間のポーズ転送を容易にするために,DFC-Net(Disentangled Feature Consistency)を付加したポーズ転送ネットワークを提案する。ソースとターゲット人を含む一対のイメージが与えられた後、DFC-Netはソースからそれぞれポーズと静的情報を抽出し、ターゲット人のイメージをソースから所望のポーズで合成する。
論文参考訳（メタデータ） (2021-07-23T01:25:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。