Fugu-MT 論文翻訳(概要): The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization

論文の概要: The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization

arxiv url: http://arxiv.org/abs/2312.08872v2
Date: Sun, 10 Mar 2024 02:08:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 15:01:29.029552
Title: The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization
Title（参考訳）: デノイングにおけるロッキーチケット仮説:セマンティックな初期化に向けて
Authors: Jiafeng Mao, Xueting Wang, Kiyoharu Aizawa
Abstract要約: ランダムなガウス雑音像を復調する際の抽選券仮説を定式化する。我々は、既知の当選チケットから初期ノイズを生成する意味駆動型初期画像構築を実装した。この結果から,入賞チケットを初期雑音画像に集約することで,モデルが対応する位置で特定対象を生成できることが示唆された。
参考スコア（独自算出の注目度）: 34.417119749031535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image diffusion models allow users control over the content of generated images. Still, text-to-image generation occasionally leads to generation failure requiring users to generate dozens of images under the same text prompt before they obtain a satisfying result. We formulate the lottery ticket hypothesis in denoising: randomly initialized Gaussian noise images contain special pixel blocks (winning tickets) that naturally tend to be denoised into specific content independently. The generation failure in standard text-to-image synthesis is caused by the gap between optimal and actual spatial distribution of winning tickets in initial noisy images. To this end, we implement semantic-driven initial image construction creating initial noise from known winning tickets for each concept mentioned in the prompt. We conduct a series of experiments that verify the properties of winning tickets and demonstrate their generalizability across images and prompts. Our results show that aggregating winning tickets into the initial noise image effectively induce the model to generate the specified object at the corresponding location.
Abstract（参考訳）: テキストから画像への拡散モデルにより、ユーザーは生成された画像の内容を制御できる。それでも、テキストから画像への生成は、ユーザーが満足のいく結果を得る前に、同じテキストプロンプトの下で数十もの画像を生成する必要がある場合があります。ランダムに初期化されたガウスノイズ画像は、自然に特定のコンテンツに個別に区切られる傾向がある特別なピクセルブロック(勝利のチケット)を含む。標準テキスト・画像合成における生成障害は、初期雑音画像における当選チケットの最適空間分布と実際の空間分布のギャップによって生じる。この目的のために,プロンプトで言及される各概念について,既知の入賞チケットから初期ノイズを生成するセマンティック駆動の初期画像構築を実装した。入賞券の特性を検証し,画像とプロンプト間の一般化性を示す一連の実験を行った。この結果から,入賞チケットを初期雑音画像に集約することで,モデルが対応する位置で特定対象を生成できることが示唆された。

関連論文リスト

TTSnap: Test-Time Scaling of Diffusion Models via Noise-Aware Pruning [53.52543819839442]
テキスト・画像拡散モデルのテスト時間スケーリングに対する顕著なアプローチは、複数のノイズシードの探索として問題を定式化する。ノイズ対応プルーニング(TTSnap)を用いたテスト時間スケーリングを提案する。
論文参考訳（メタデータ） (2025-11-27T09:14:26Z)
Noise Projection: Closing the Prompt-Agnostic Gap Behind Text-to-Image Misalignment in Diffusion Models [9.683618735282414]
テキスト・ツー・イメージ生成において、異なる初期ノイズは、事前訓練された安定拡散(SD)モデルで異なる雑音を誘導する。このパターンは多様な画像を出力できるが、いくつかのパターンはプロンプトとうまく一致しないかもしれない。そこで本研究では,初期雑音に対してテキスト条件の修正を施したノイズプロジェクタを提案する。
論文参考訳（メタデータ） (2025-10-16T10:14:34Z)
Learning to Translate Noise for Robust Image Denoising [38.61470097987608]
ディープ・ラーニング・テクニックは、現実世界のノイズに分布しないような一般化性能に苦しむことが多い。そこで,本研究では,元の雑音画像を直接デノナイズするのではなく,変換された雑音で画像をデノナイズする新しいノイズ翻訳フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-06T02:35:44Z)
Diffusion-Based Image-to-Image Translation by Noise Correction via Prompt Interpolation [43.48099716183503]
本稿では,拡散に基づく画像から画像への変換に適した学習自由なアプローチを提案する。本手法は,既存の画像から画像への翻訳手法に容易に組み込むことができる。
論文参考訳（メタデータ） (2024-09-12T14:30:45Z)
The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise [92.53724347718173]
拡散モデルはテキスト・画像生成タスクにおいて顕著な成功を収めた。我々は、初期ノイズ画像内の特定の領域をトリガーパッチと呼び、結果として発生する画像のオブジェクト生成に重要な役割を果たす。
論文参考訳（メタデータ） (2024-06-04T05:06:00Z)
InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文参考訳（メタデータ） (2024-04-06T14:56:59Z)
Towards Better Multi-modal Keyphrase Generation via Visual Entity Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文参考訳（メタデータ） (2023-09-09T09:41:36Z)
Guided Image Synthesis via Initial Image Editing in Diffusion Model [30.622943615086584]
拡散モデルでは、純粋なガウスノイズ画像から高品質な画像を生成することができる。生成した画像を制御するために初期雑音を操作する新しい方向を提案する。その結果,生成画像の制御における初期画像操作の柔軟性とパワーを強調した。
論文参考訳（メタデータ） (2023-05-05T09:27:59Z)
NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文参考訳（メタデータ） (2022-12-14T08:19:30Z)
Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。 PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文参考訳（メタデータ） (2022-04-06T14:09:02Z)
Disentangling Noise from Images: A Flow-Based Image Denoising Neural Network [25.008542061247383]
本稿では,イメージデノベーションを分散学習と切り離しタスクとして扱うための新しい視点を提案する。ノイズ画像分布は、クリーン画像とノイズの結合分布と見なすことができるので、潜在表現をクリーン表現に操作することにより、消音画像を得ることができる。我々は、クリーンまたはノイズ分布のいずれかの仮定なしに、反転型消音ネットワーク、FDNを提示します。
論文参考訳（メタデータ） (2021-05-11T01:52:26Z)
Neighbor2Neighbor: Self-Supervised Denoising from Single Noisy Images [98.82804259905478]
Neighbor2Neighborを提示し、ノイズの多い画像のみで効果的な画像消音モデルをトレーニングします。ネットワークのトレーニングに使用される入力とターゲットは、同じノイズ画像からサブサンプリングされた画像である。デノイジングネットワークは、第1段階で生成されたサブサンプルトレーニングペアで訓練され、提案された正規化器は、より良いパフォーマンスのための追加の損失として訓練される。
論文参考訳（メタデータ） (2021-01-08T02:03:25Z)
Dual Adversarial Network: Toward Real-world Noise Removal and Noise Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。本手法はクリーンノイズ画像対の連成分布を学習する。
論文参考訳（メタデータ） (2020-07-12T09:16:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。