Fugu-MT 論文翻訳(概要): RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance

論文の概要: RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance

arxiv url: http://arxiv.org/abs/2405.14677v4
Date: Tue, 10 Dec 2024 14:51:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 15:47:16.438474
Title: RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance
Title（参考訳）: RectifID: Anchored Classifier Guidanceを用いた定位流れのパーソナライズ
Authors: Zhicheng Sun, Zhenhao Yang, Yang Jin, Haozhe Chi, Kun Xu, Kun Xu, Liwei Chen, Hao Jiang, Yang Song, Kun Gai, Yadong Mu,
Abstract要約: 既存の分類器を用いて拡散モデルを操り、画像のパーソナライズのためのトレーニングフリー手法を利用する。本研究は,近年の補正フローの枠組みに基づいて,バニラ分類器指導の限界を簡単な固定点解法で解決できることを示唆する。本発明の方法は、市販画像識別装置の異なる正流に実装され、人間の顔、生きた被写体、特定の対象物に対して有利なパーソナライズ結果を提供する。
参考スコア（独自算出の注目度）: 40.69996772681004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Customizing diffusion models to generate identity-preserving images from user-provided reference images is an intriguing new problem. The prevalent approaches typically require training on extensive domain-specific images to achieve identity preservation, which lacks flexibility across different use cases. To address this issue, we exploit classifier guidance, a training-free technique that steers diffusion models using an existing classifier, for personalized image generation. Our study shows that based on a recent rectified flow framework, the major limitation of vanilla classifier guidance in requiring a special classifier can be resolved with a simple fixed-point solution, allowing flexible personalization with off-the-shelf image discriminators. Moreover, its solving procedure proves to be stable when anchored to a reference flow trajectory, with a convergence guarantee. The derived method is implemented on rectified flow with different off-the-shelf image discriminators, delivering advantageous personalization results for human faces, live subjects, and certain objects. Code is available at https://github.com/feifeiobama/RectifID.
Abstract（参考訳）: ユーザが提供する参照画像からID保存画像を生成するための拡散モデルのカスタマイズは、興味深い新しい問題である。一般的なアプローチでは、さまざまなユースケースの柔軟性に欠けるID保存を実現するために、広範なドメイン固有のイメージのトレーニングが必要となる。この問題に対処するために,既存の分類器を用いて拡散モデルを操るトレーニングフリーな手法である分類器指導を利用して,画像のパーソナライズを行う。本研究は,近年の正統化フローの枠組みに基づいて,特定分類器を必要とする場合のバニラ分類器指導の限界を,簡単な固定点法で解決し,オフザシェルフ画像識別器によるフレキシブルなパーソナライゼーションを実現することを示唆している。さらに、その解法は、収束保証とともに基準流路に固定されたときに安定であることが証明される。本発明の方法は、市販画像識別装置の異なる整流流れに実装され、人間の顔、生きた被写体、特定の対象物に対して有利なパーソナライズ結果を提供する。コードはhttps://github.com/feifeiobama/RectifIDで入手できる。

関連論文リスト

PrefGen: Multimodal Preference Learning for Preference-Conditioned Image Generation [44.638427866399205]
優先条件付き画像生成は、生成モデルを個々のユーザに適用し、与えられたプロンプトを超えて、個人の美的選択を反映したアウトプットを生成する。マルチモーダルな大言語モデルを用いて、リッチなユーザ表現を抽出し、拡散に基づく画像生成に注入するフレームワークを提案する。本手法は,画像品質と嗜好アライメントの両方において,強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2025-12-04T02:57:29Z)
G4Seg: Generation for Inexact Segmentation Refinement with Diffusion Models [38.44872934965588]
本稿では, 大規模テキスト・画像モデルを用いて不正確な拡散(IS)課題に取り組むことの問題点について考察する。我々は,原画像とマスク条件生成画像とのパターンの相違を利用して,粗大なセグメント化改善を容易にする。
論文参考訳（メタデータ） (2025-06-02T11:05:28Z)
Diverse and Tailored Image Generation for Zero-shot Multi-label Classification [3.354528906571718]
ゼロショットのマルチラベル分類は、人間のアノテーションを使わずに、目に見えないラベルで予測を実行する能力について、かなりの注目を集めている。一般的なアプローチでは、目に見えないものに対する不完全なプロキシとしてクラスをよく使用します。本稿では,未確認ラベル上でのプロキシレストレーニングに適したトレーニングセットを構築するために,合成データを生成する,革新的なソリューションを提案する。
論文参考訳（メタデータ） (2024-04-04T01:34:36Z)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文参考訳（メタデータ） (2024-01-30T05:56:12Z)
Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。 i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文参考訳（メタデータ） (2023-03-30T05:25:20Z)
End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文参考訳（メタデータ） (2023-03-23T22:43:52Z)
Few-shot Image Generation via Masked Discrimination [20.998032566820907]
少ないショット画像生成は、限られたデータで高品質で多彩な画像を生成することを目的としている。現代のGANでは、ほんの数枚の画像で訓練された場合、過度な適合を避けることは困難である。本研究は,マスク付き識別による少数ショットGAN適応を実現するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-10-27T06:02:22Z)
Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。 VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文参考訳（メタデータ） (2022-10-21T09:35:47Z)
Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。本手法は,様々な画像粒度の誘導信号を提供する。単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文参考訳（メタデータ） (2022-10-12T17:57:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。