論文の概要: The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven
Initialization
- arxiv url: http://arxiv.org/abs/2312.08872v2
- Date: Sun, 10 Mar 2024 02:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:01:29.029552
- Title: The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven
Initialization
- Title(参考訳): デノイングにおけるロッキーチケット仮説:セマンティックな初期化に向けて
- Authors: Jiafeng Mao, Xueting Wang, Kiyoharu Aizawa
- Abstract要約: ランダムなガウス雑音像を復調する際の抽選券仮説を定式化する。
我々は、既知の当選チケットから初期ノイズを生成する意味駆動型初期画像構築を実装した。
この結果から,入賞チケットを初期雑音画像に集約することで,モデルが対応する位置で特定対象を生成できることが示唆された。
- 参考スコア(独自算出の注目度): 34.417119749031535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models allow users control over the content of
generated images. Still, text-to-image generation occasionally leads to
generation failure requiring users to generate dozens of images under the same
text prompt before they obtain a satisfying result. We formulate the lottery
ticket hypothesis in denoising: randomly initialized Gaussian noise images
contain special pixel blocks (winning tickets) that naturally tend to be
denoised into specific content independently. The generation failure in
standard text-to-image synthesis is caused by the gap between optimal and
actual spatial distribution of winning tickets in initial noisy images. To this
end, we implement semantic-driven initial image construction creating initial
noise from known winning tickets for each concept mentioned in the prompt. We
conduct a series of experiments that verify the properties of winning tickets
and demonstrate their generalizability across images and prompts. Our results
show that aggregating winning tickets into the initial noise image effectively
induce the model to generate the specified object at the corresponding
location.
- Abstract(参考訳): テキストから画像への拡散モデルにより、ユーザーは生成された画像の内容を制御できる。
それでも、テキストから画像への生成は、ユーザーが満足のいく結果を得る前に、同じテキストプロンプトの下で数十もの画像を生成する必要がある場合があります。
ランダムに初期化されたガウスノイズ画像は、自然に特定のコンテンツに個別に区切られる傾向がある特別なピクセルブロック(勝利のチケット)を含む。
標準テキスト・画像合成における生成障害は、初期雑音画像における当選チケットの最適空間分布と実際の空間分布のギャップによって生じる。
この目的のために,プロンプトで言及される各概念について,既知の入賞チケットから初期ノイズを生成するセマンティック駆動の初期画像構築を実装した。
入賞券の特性を検証し,画像とプロンプト間の一般化性を示す一連の実験を行った。
この結果から,入賞チケットを初期雑音画像に集約することで,モデルが対応する位置で特定対象を生成できることが示唆された。
関連論文リスト
- Diffusion-Based Image-to-Image Translation by Noise Correction via Prompt Interpolation [43.48099716183503]
本稿では,拡散に基づく画像から画像への変換に適した学習自由なアプローチを提案する。
本手法は,既存の画像から画像への翻訳手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2024-09-12T14:30:45Z) - The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise [92.53724347718173]
拡散モデルはテキスト・画像生成タスクにおいて顕著な成功を収めた。
我々は、初期ノイズ画像内の特定の領域をトリガーパッチと呼び、結果として発生する画像のオブジェクト生成に重要な役割を果たす。
論文 参考訳(メタデータ) (2024-06-04T05:06:00Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Guided Image Synthesis via Initial Image Editing in Diffusion Model [30.622943615086584]
拡散モデルでは、純粋なガウスノイズ画像から高品質な画像を生成することができる。
生成した画像を制御するために初期雑音を操作する新しい方向を提案する。
その結果,生成画像の制御における初期画像操作の柔軟性とパワーを強調した。
論文 参考訳(メタデータ) (2023-05-05T09:27:59Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware
Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。
PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。
より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文 参考訳(メタデータ) (2022-04-06T14:09:02Z) - Disentangling Noise from Images: A Flow-Based Image Denoising Neural
Network [25.008542061247383]
本稿では,イメージデノベーションを分散学習と切り離しタスクとして扱うための新しい視点を提案する。
ノイズ画像分布は、クリーン画像とノイズの結合分布と見なすことができるので、潜在表現をクリーン表現に操作することにより、消音画像を得ることができる。
我々は、クリーンまたはノイズ分布のいずれかの仮定なしに、反転型消音ネットワーク、FDNを提示します。
論文 参考訳(メタデータ) (2021-05-11T01:52:26Z) - Neighbor2Neighbor: Self-Supervised Denoising from Single Noisy Images [98.82804259905478]
Neighbor2Neighborを提示し、ノイズの多い画像のみで効果的な画像消音モデルをトレーニングします。
ネットワークのトレーニングに使用される入力とターゲットは、同じノイズ画像からサブサンプリングされた画像である。
デノイジングネットワークは、第1段階で生成されたサブサンプルトレーニングペアで訓練され、提案された正規化器は、より良いパフォーマンスのための追加の損失として訓練される。
論文 参考訳(メタデータ) (2021-01-08T02:03:25Z) - Dual Adversarial Network: Toward Real-world Noise Removal and Noise
Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。
本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。
本手法はクリーンノイズ画像対の連成分布を学習する。
論文 参考訳(メタデータ) (2020-07-12T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。