論文の概要: The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization
- arxiv url: http://arxiv.org/abs/2312.08872v4
- Date: Wed, 09 Oct 2024 03:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:54.132735
- Title: The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization
- Title(参考訳): デノイングにおけるロッキーチケット仮説--セマンティックな初期化に向けて
- Authors: Jiafeng Mao, Xueting Wang, Kiyoharu Aizawa,
- Abstract要約: ランダムなガウス雑音像を復調する際の抽選券仮説を定式化する。
優勝チケットは独立して特定のコンテンツにデノベートされる傾向がある。
我々は、既知の当選チケットから初期ノイズを生成する意味駆動型初期画像構築を実装した。
- 参考スコア(独自算出の注目度): 30.622943615086584
- License:
- Abstract: Text-to-image diffusion models allow users control over the content of generated images. Still, text-to-image generation occasionally leads to generation failure requiring users to generate dozens of images under the same text prompt before they obtain a satisfying result. We formulate the lottery ticket hypothesis in denoising: randomly initialized Gaussian noise images contain special pixel blocks (winning tickets) that naturally tend to be denoised into specific content independently. The generation failure in standard text-to-image synthesis is caused by the gap between optimal and actual spatial distribution of winning tickets in initial noisy images. To this end, we implement semantic-driven initial image construction creating initial noise from known winning tickets for each concept mentioned in the prompt. We conduct a series of experiments that verify the properties of winning tickets and demonstrate their generalizability across images and prompts. Our results show that aggregating winning tickets into the initial noise image effectively induce the model to generate the specified object at the corresponding location. Project Page: https://ut-mao.github.io/noise.github.io
- Abstract(参考訳): テキストから画像への拡散モデルにより、ユーザーは生成された画像の内容を制御できる。
それでも、テキスト・ツー・イメージ生成は時として、ユーザが満足な結果を得る前に、同じテキストプロンプトの下で数十の画像を生成する必要のある生成失敗につながることがある。
ランダムに初期化したガウス雑音画像は、自然に特定のコンテンツに分解される傾向にある特別な画素ブロック(入賞券)を含む。
標準テキスト・画像合成における生成障害は、初期雑音画像における当選チケットの最適空間分布と実際の空間分布のギャップによって生じる。
この目的のために,提案手法は,提案手法に言及されている各概念に対して,既知の当選チケットから初期ノイズを生成する意味駆動型初期画像構築を実装した。
優勝チケットの特性を検証し、画像やプロンプトの一般化性を実証する一連の実験を行う。
この結果から,入賞チケットを初期雑音画像に集約することで,モデルが対応する位置で特定対象を生成できることが示唆された。
Project Page: https://ut-mao.github.io/noise.github.io
関連論文リスト
- Diffusion-Based Image-to-Image Translation by Noise Correction via Prompt Interpolation [43.48099716183503]
本稿では,拡散に基づく画像から画像への変換に適した学習自由なアプローチを提案する。
本手法は,既存の画像から画像への翻訳手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2024-09-12T14:30:45Z) - The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise [92.53724347718173]
拡散モデルはテキスト・画像生成タスクにおいて顕著な成功を収めた。
我々は、初期ノイズ画像内の特定の領域をトリガーパッチと呼び、結果として発生する画像のオブジェクト生成に重要な役割を果たす。
論文 参考訳(メタデータ) (2024-06-04T05:06:00Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Guided Image Synthesis via Initial Image Editing in Diffusion Model [30.622943615086584]
拡散モデルでは、純粋なガウスノイズ画像から高品質な画像を生成することができる。
生成した画像を制御するために初期雑音を操作する新しい方向を提案する。
その結果,生成画像の制御における初期画像操作の柔軟性とパワーを強調した。
論文 参考訳(メタデータ) (2023-05-05T09:27:59Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware
Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。
PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。
より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文 参考訳(メタデータ) (2022-04-06T14:09:02Z) - Disentangling Noise from Images: A Flow-Based Image Denoising Neural
Network [25.008542061247383]
本稿では,イメージデノベーションを分散学習と切り離しタスクとして扱うための新しい視点を提案する。
ノイズ画像分布は、クリーン画像とノイズの結合分布と見なすことができるので、潜在表現をクリーン表現に操作することにより、消音画像を得ることができる。
我々は、クリーンまたはノイズ分布のいずれかの仮定なしに、反転型消音ネットワーク、FDNを提示します。
論文 参考訳(メタデータ) (2021-05-11T01:52:26Z) - Neighbor2Neighbor: Self-Supervised Denoising from Single Noisy Images [98.82804259905478]
Neighbor2Neighborを提示し、ノイズの多い画像のみで効果的な画像消音モデルをトレーニングします。
ネットワークのトレーニングに使用される入力とターゲットは、同じノイズ画像からサブサンプリングされた画像である。
デノイジングネットワークは、第1段階で生成されたサブサンプルトレーニングペアで訓練され、提案された正規化器は、より良いパフォーマンスのための追加の損失として訓練される。
論文 参考訳(メタデータ) (2021-01-08T02:03:25Z) - Dual Adversarial Network: Toward Real-world Noise Removal and Noise
Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。
本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。
本手法はクリーンノイズ画像対の連成分布を学習する。
論文 参考訳(メタデータ) (2020-07-12T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。