論文の概要: Saliency Guided Optimization of Diffusion Latents
- arxiv url: http://arxiv.org/abs/2410.10257v1
- Date: Mon, 14 Oct 2024 08:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:05:09.603224
- Title: Saliency Guided Optimization of Diffusion Latents
- Title(参考訳): 拡散潜水剤の塩分誘導最適化
- Authors: Xiwen Wang, Jizhe Zhou, Xuekang Zhu, Cheng Li, Mao Li,
- Abstract要約: テキスト・ツー・イメージ生成の鍵となるのは、テキスト・ツー・イメージ生成モデルの結果を最適化して、人間の意図やプロンプトに適合するようにする方法である。
これらの手法は、画像を見るとき、人間の視覚系が自然に正常な領域への注意を優先し、少ない領域や非塩分領域を無視するという事実を見落としている。
本稿では、このアライメント課題を効果的かつ効率的に解決するために、潜伏者の衛生指導最適化(SGOOL)を提案する。
- 参考スコア(独自算出の注目度): 9.237421522280819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advances in diffusion models, generating decent images from text prompts is no longer challenging. The key to text-to-image generation is how to optimize the results of a text-to-image generation model so that they can be better aligned with human intentions or prompts. Existing optimization methods commonly treat the entire image uniformly and conduct global optimization. These methods overlook the fact that when viewing an image, the human visual system naturally prioritizes attention toward salient areas, often neglecting less or non-salient regions. That is, humans are likely to neglect optimizations in non-salient areas. Consequently, although model retaining is conducted under the guidance of additional large and multimodality models, existing methods, which perform uniform optimizations, yield sub-optimal results. To address this alignment challenge effectively and efficiently, we propose Saliency Guided Optimization Of Diffusion Latents (SGOOL). We first employ a saliency detector to mimic the human visual attention system and mark out the salient regions. To avoid retraining an additional model, our method directly optimizes the diffusion latents. Besides, SGOOL utilizes an invertible diffusion process and endows it with the merits of constant memory implementation. Hence, our method becomes a parameter-efficient and plug-and-play fine-tuning method. Extensive experiments have been done with several metrics and human evaluation. Experimental results demonstrate the superiority of SGOOL in image quality and prompt alignment.
- Abstract(参考訳): 拡散モデルの急速な進歩により、テキストプロンプトから適切な画像を生成することはもはや困難ではない。
テキスト・ツー・イメージ生成の鍵となるのは、テキスト・ツー・イメージ生成モデルの結果を最適化して、人間の意図やプロンプトに適合するようにする方法である。
既存の最適化手法は、画像全体を一様に扱い、大域的な最適化を行う。
これらの手法は、画像を見るとき、人間の視覚系が自然に正常な領域への注意を優先し、少ない領域や非塩分領域を無視するという事実を見落としている。
つまり、人間は非塩分領域の最適化を無視する可能性が高い。
その結果、モデル保持は、追加の大規模および多様性モデルのガイダンスの下で行われるが、一様最適化を行う既存の方法により、準最適結果が得られる。
本稿では,このアライメント課題を効果的かつ効率的に解決するために,SGOOL(Saliency Guided Optimization of Diffusion Latents)を提案する。
まず、人間の視覚的注意を模倣し、健康な地域をマークアウトするために、塩分検知器を使用します。
追加モデルの再学習を避けるため,本手法は拡散潜水器を直接最適化する。
さらに、SGOOLは非可逆拡散プロセスを使用し、一定のメモリ実装の利点を付与する。
したがって,本手法はパラメータ効率とプラグアンドプレイの微調整法となる。
大規模な実験は、いくつかの指標と人間の評価で行われてきた。
SGOOLの画質および迅速なアライメントにおける優位性を示す実験結果を得た。
関連論文リスト
- Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [30.973473583364832]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T12:16:11Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - OmniSSR: Zero-shot Omnidirectional Image Super-Resolution using Stable Diffusion Model [6.83367289911244]
ODI(Omnidirectional Image)は、現実世界の視覚タスクで一般的に使われ、高解像度のODIは関連する視覚タスクのパフォーマンス向上に役立つ。
ODIの既存の超解像法のほとんどはエンドツーエンドの学習戦略を用いており、結果として生成された画像の劣る現実性をもたらす。
論文 参考訳(メタデータ) (2024-04-16T06:39:37Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Optimal Linear Subspace Search: Learning to Construct Fast and
High-Quality Schedulers for Diffusion Models [18.026820439151404]
現在、拡散モデルの適用を制限する重要な問題は、非常に遅い生成プロセスである。
最適線形部分空間探索(OLSS)と呼ばれる新しい手法を提案する。
OLSSは、非常に少ないステップで高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-05-24T03:33:30Z) - High-Fidelity Clothed Avatar Reconstruction from a Single Image [73.15939963381906]
本研究では,1枚の画像から高忠実度布地アバター再構成を実現するための粗大な方法を提案する。
我々は暗黙のモデルを用いて、学習ベースの方法で人の標準空間の一般的な形状を学習する。
提案手法は, 提案空間における非剛性変形を最適化的に推定することにより, 表面の細部を改良する。
論文 参考訳(メタデータ) (2023-04-08T04:01:04Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。