論文の概要: FilterPrompt: Guiding Image Transfer in Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.13263v1
- Date: Sat, 20 Apr 2024 04:17:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:49:10.303009
- Title: FilterPrompt: Guiding Image Transfer in Diffusion Models
- Title(参考訳): FilterPrompt: 拡散モデルにおける画像転送の誘導
- Authors: Xi Wang, Yichen Peng, Heng Fang, Haoran Xie, Xi Yang, Chuntao Li,
- Abstract要約: FilterPromptは、モデル制御効果を強化するアプローチである。
任意の拡散モデルに普遍的に適用することができ、ユーザーは特定の画像の特徴の表現を調整できる。
- 参考スコア(独自算出の注目度): 9.386850486378382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In controllable generation tasks, flexibly manipulating the generated images to attain a desired appearance or structure based on a single input image cue remains a critical and longstanding challenge. Achieving this requires the effective decoupling of key attributes within the input image data, aiming to get representations accurately. Previous research has predominantly concentrated on disentangling image attributes within feature space. However, the complex distribution present in real-world data often makes the application of such decoupling algorithms to other datasets challenging. Moreover, the granularity of control over feature encoding frequently fails to meet specific task requirements. Upon scrutinizing the characteristics of various generative models, we have observed that the input sensitivity and dynamic evolution properties of the diffusion model can be effectively fused with the explicit decomposition operation in pixel space. This integration enables the image processing operations performed in pixel space for a specific feature distribution of the input image, and can achieve the desired control effect in the generated results. Therefore, we propose FilterPrompt, an approach to enhance the model control effect. It can be universally applied to any diffusion model, allowing users to adjust the representation of specific image features in accordance with task requirements, thereby facilitating more precise and controllable generation outcomes. In particular, our designed experiments demonstrate that the FilterPrompt optimizes feature correlation, mitigates content conflicts during the generation process, and enhances the model's control capability.
- Abstract(参考訳): 制御可能な生成タスクでは、生成した画像を柔軟に操作し、単一の入力画像キューに基づいて所望の外観や構造を達成できる。
これを実現するには、入力画像データ内のキー属性を効果的に分離し、表現を正確に取得する必要がある。
以前の研究では、主に特徴空間内の画像属性の分離に焦点が当てられていた。
しかし、実世界のデータに存在する複雑な分布は、そのようなデカップリングアルゴリズムを他のデータセットに適用することを難しくすることが多い。
さらに、機能符号化に対する制御の粒度は、特定のタスク要求を満たすのにしばしば失敗する。
様々な生成モデルの特性を精査すると,拡散モデルの入力感度と動的進化特性は,画素空間における明示的な分解操作と効果的に融合できることがわかった。
これにより、入力画像の特定の特徴分布に対して画素空間で実行される画像処理操作が可能となり、生成した結果において所望の制御効果が得られる。
そこで本研究では,モデル制御効果を高めるためのFilterPromptを提案する。
任意の拡散モデルに普遍的に適用可能であり、ユーザーはタスク要求に応じて特定の画像特徴の表現を調整でき、より正確で制御可能な生成結果を容易にすることができる。
特に,我々の設計した実験では,FilterPromptが特徴相関を最適化し,生成プロセス中のコンテント競合を緩和し,モデルの制御能力を向上することを示した。
関連論文リスト
- OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation [17.169772329737913]
LocRef-Diffusionは、画像内の複数のインスタンスの外観と位置をカスタマイズできるチューニング不要のモデルである。
インスタンス配置の精度を高めるために,インスタンス生成位置を制御するレイアウトネットを導入する。
参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出する外観ネットを用いる。
論文 参考訳(メタデータ) (2024-11-22T08:44:39Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - Plug-and-Play Controllable Generation for Discrete Masked Models [27.416952690340903]
本稿では、離散データ制御可能な生成モデリングのための離散マスクモデルについて述べる。
本稿では,条件付きスコアのトレーニングを回避した重要サンプリングに基づく新しいプラグアンドプレイフレームワークを提案する。
本フレームワークは,制御基準の選択に非依存であり,勾配情報を必要としないため,後方サンプリングやベイズ逆問題,制約生成などのタスクに適している。
論文 参考訳(メタデータ) (2024-10-03T02:00:40Z) - RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance [22.326405355520176]
RefDropを使えば、ユーザーは直接的かつ正確な方法で参照コンテキストの影響を制御できる。
また,本手法は,複数の主題を一貫した生成など,より興味深い応用を可能にする。
論文 参考訳(メタデータ) (2024-05-27T21:23:20Z) - Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。
FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。
限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文 参考訳(メタデータ) (2024-03-27T02:24:00Z) - GazeFusion: Saliency-guided Image Generation [50.37783903347613]
拡散モデルは、テキストプロンプトだけを前提として、前例のない画像生成機能を提供する。
本稿では,人間の視覚的注意の先行するデータを生成プロセスに組み込むためのサリエンシ誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-16T21:01:35Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining
Network [13.628218953897946]
本稿では,JDNetとよばれる有効アルゴリズムを提案する。
自己校正畳み込みを用いたスケール・アグリゲーション・セルフアグリゲーション・モジュールを巧みに設計することにより,提案モデルはより優れたデコレーション結果が得られる。
論文 参考訳(メタデータ) (2020-08-06T17:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。