Fugu-MT 論文翻訳(概要): FilterPrompt: Guiding Image Transfer in Diffusion Models

論文の概要: FilterPrompt: Guiding Image Transfer in Diffusion Models

arxiv url: http://arxiv.org/abs/2404.13263v2
Date: Mon, 13 May 2024 02:39:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 23:10:20.359187
Title: FilterPrompt: Guiding Image Transfer in Diffusion Models
Title（参考訳）: FilterPrompt: 拡散モデルにおける画像転送の誘導
Authors: Xi Wang, Yichen Peng, Heng Fang, Haoran Xie, Xi Yang, Chuntao Li,
Abstract要約: FilterPromptは、モデル制御効果を強化するアプローチである。任意の拡散モデルに普遍的に適用することができ、ユーザーは特定の画像の特徴の表現を調整できる。
参考スコア（独自算出の注目度）: 9.386850486378382
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In controllable generation tasks, flexibly manipulating the generated images to attain a desired appearance or structure based on a single input image cue remains a critical and longstanding challenge. Achieving this requires the effective decoupling of key attributes within the input image data, aiming to get representations accurately. Previous research has predominantly concentrated on disentangling image attributes within feature space. However, the complex distribution present in real-world data often makes the application of such decoupling algorithms to other datasets challenging. Moreover, the granularity of control over feature encoding frequently fails to meet specific task requirements. Upon scrutinizing the characteristics of various generative models, we have observed that the input sensitivity and dynamic evolution properties of the diffusion model can be effectively fused with the explicit decomposition operation in pixel space. This integration enables the image processing operations performed in pixel space for a specific feature distribution of the input image, and can achieve the desired control effect in the generated results. Therefore, we propose FilterPrompt, an approach to enhance the model control effect. It can be universally applied to any diffusion model, allowing users to adjust the representation of specific image features in accordance with task requirements, thereby facilitating more precise and controllable generation outcomes. In particular, our designed experiments demonstrate that the FilterPrompt optimizes feature correlation, mitigates content conflicts during the generation process, and enhances the model's control capability.
Abstract（参考訳）: 制御可能な生成タスクでは、生成した画像を柔軟に操作し、単一の入力画像キューに基づいて所望の外観や構造を達成できる。これを実現するには、入力画像データ内のキー属性を効果的に分離し、表現を正確に取得する必要がある。以前の研究では、主に特徴空間内の画像属性の分離に焦点が当てられていた。しかし、実世界のデータに存在する複雑な分布は、そのようなデカップリングアルゴリズムを他のデータセットに適用することを難しくすることが多い。さらに、機能符号化に対する制御の粒度は、特定のタスク要求を満たすのにしばしば失敗する。様々な生成モデルの特性を精査すると,拡散モデルの入力感度と動的進化特性は,画素空間における明示的な分解操作と効果的に融合できることがわかった。これにより、入力画像の特定の特徴分布に対して画素空間で実行される画像処理操作が可能となり、生成した結果において所望の制御効果が得られる。そこで本研究では,モデル制御効果を高めるためのFilterPromptを提案する。任意の拡散モデルに普遍的に適用可能であり、ユーザーはタスク要求に応じて特定の画像特徴の表現を調整でき、より正確で制御可能な生成結果を容易にすることができる。特に,我々の設計した実験では,FilterPromptが特徴相関を最適化し,生成プロセス中のコンテント競合を緩和し,モデルの制御能力を向上することを示した。

関連論文リスト

IntrinsicEdit: Precise generative image manipulation in intrinsic space [53.404235331886255]
そこで本研究では,固有画像空間で動作する汎用的生成ワークフローを提案する。我々はアイデンティティの保存と内在チャネルの絡み合いの鍵となる課題に対処する。我々は,グローバル照明効果の自動分解による高精度かつ効率的な編集を可能にする。
論文参考訳（メタデータ） (2025-05-13T18:24:15Z)
A Controllable Appearance Representation for Flexible Transfer and Editing [0.44241702149260353]
本稿では,コンパクトな潜在空間内での材料外観の解釈可能な表現を計算する手法を提案する。この表現は、適応されたFacterVAEを用いて自己教師型で学習される。本モデルは, 材料外観と照明を効果的に符号化することにより, 強い絡み合いと解釈可能性を示す。
論文参考訳（メタデータ） (2025-04-21T11:29:06Z)
Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文参考訳（メタデータ） (2024-12-19T05:02:30Z)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。 OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation [17.169772329737913]
LocRef-Diffusionは、画像内の複数のインスタンスの外観と位置をカスタマイズできるチューニング不要のモデルである。インスタンス配置の精度を高めるために,インスタンス生成位置を制御するレイアウトネットを導入する。参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出する外観ネットを用いる。
論文参考訳（メタデータ） (2024-11-22T08:44:39Z)
A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
Plug-and-Play Controllable Generation for Discrete Masked Models [27.416952690340903]
本稿では、離散データ制御可能な生成モデリングのための離散マスクモデルについて述べる。本稿では,条件付きスコアのトレーニングを回避した重要サンプリングに基づく新しいプラグアンドプレイフレームワークを提案する。本フレームワークは,制御基準の選択に非依存であり,勾配情報を必要としないため,後方サンプリングやベイズ逆問題,制約生成などのタスクに適している。
論文参考訳（メタデータ） (2024-10-03T02:00:40Z)
RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance [22.326405355520176]
RefDropを使えば、ユーザーは直接的かつ正確な方法で参照コンテキストの影響を制御できる。また,本手法は,複数の主題を一貫した生成など,より興味深い応用を可能にする。
論文参考訳（メタデータ） (2024-05-27T21:23:20Z)
Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。 FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文参考訳（メタデータ） (2024-03-27T02:24:00Z)
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文参考訳（メタデータ） (2024-03-20T04:58:03Z)
GazeFusion: Saliency-guided Image Generation [50.37783903347613]
拡散モデルは、テキストプロンプトだけを前提として、前例のない画像生成機能を提供する。本稿では,人間の視覚的注意の先行するデータを生成プロセスに組み込むためのサリエンシ誘導フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-16T21:01:35Z)
Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文参考訳（メタデータ） (2023-09-30T02:54:51Z)
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2023-06-26T06:04:09Z)
Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。 2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文参考訳（メタデータ） (2022-11-22T18:59:50Z)
Style Intervention: How to Achieve Spatial Disentanglement with Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文参考訳（メタデータ） (2020-11-19T07:37:31Z)
Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining Network [13.628218953897946]
本稿では,JDNetとよばれる有効アルゴリズムを提案する。自己校正畳み込みを用いたスケール・アグリゲーション・セルフアグリゲーション・モジュールを巧みに設計することにより,提案モデルはより優れたデコレーション結果が得られる。
論文参考訳（メタデータ） (2020-08-06T17:04:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。