論文の概要: NOFT: Test-Time Noise Finetune via Information Bottleneck for Highly Correlated Asset Creation
- arxiv url: http://arxiv.org/abs/2505.12235v1
- Date: Sun, 18 May 2025 05:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.109082
- Title: NOFT: Test-Time Noise Finetune via Information Bottleneck for Highly Correlated Asset Creation
- Title(参考訳): NOFT:高相関アセット生成のためのインフォメーション・ボトルネックによるテストタイムノイズファインチューン
- Authors: Jia Li, Nan Gao, Huaibo Huang, Ran He,
- Abstract要約: 拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)を生成する強力なツールを提供する。
本研究では,高相関・多彩な画像を生成するため,安定拡散を用いたノイズファインチューンNOFTモジュールを提案する。
- 参考スコア(独自算出の注目度): 70.96827354717459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The diffusion model has provided a strong tool for implementing text-to-image (T2I) and image-to-image (I2I) generation. Recently, topology and texture control are popular explorations, e.g., ControlNet, IP-Adapter, Ctrl-X, and DSG. These methods explicitly consider high-fidelity controllable editing based on external signals or diffusion feature manipulations. As for diversity, they directly choose different noise latents. However, the diffused noise is capable of implicitly representing the topological and textural manifold of the corresponding image. Moreover, it's an effective workbench to conduct the trade-off between content preservation and controllable variations. Previous T2I and I2I diffusion works do not explore the information within the compressed contextual latent. In this paper, we first propose a plug-and-play noise finetune NOFT module employed by Stable Diffusion to generate highly correlated and diverse images. We fine-tune seed noise or inverse noise through an optimal-transported (OT) information bottleneck (IB) with around only 14K trainable parameters and 10 minutes of training. Our test-time NOFT is good at producing high-fidelity image variations considering topology and texture alignments. Comprehensive experiments demonstrate that NOFT is a powerful general reimagine approach to efficiently fine-tune the 2D/3D AIGC assets with text or image guidance.
- Abstract(参考訳): 拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)を生成する強力なツールを提供する。
近年、トポロジとテクスチャ制御は、例えば、ControlNet、IP-Adapter、Ctrl-X、DSGといった一般的な探索である。
これらの手法は、外部信号や拡散特性の操作に基づいて、高忠実度制御可能な編集を明示的に検討する。
多様性に関して、彼らは直接異なるノイズラテントを選択する。
しかし、拡散雑音は、対応する画像の位相的およびテクスチャ的多様体を暗黙的に表現することができる。
さらに、コンテンツ保存と制御可能なバリエーションのトレードオフを行うための効果的なワークベンチである。
従来のT2IおよびI2I拡散処理は、圧縮された文脈潜在状態内の情報を探索しない。
本稿では,Stable Diffusionを用いて高相関・多彩な画像を生成するプラグイン・アンド・プレイノイズファインチューンNOFTモジュールを提案する。
最適伝達(OT)情報ボトルネック(IB)を用いて,約14Kのトレーニングパラメータと10分間のトレーニングでシードノイズや逆ノイズを微調整する。
我々のテストタイムNOFTはトポロジーやテクスチャアライメントを考慮した高忠実度画像のバラツキ生成に長けている。
総合的な実験により、NOFTは2D/3DAIGC資産をテキストや画像誘導で効率的に微調整するための強力な汎用的再想像手法であることが示された。
関連論文リスト
- FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。
本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-02T04:13:38Z) - Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation [17.30877810859863]
大規模テキスト・ツー・イメージ拡散モデル(T2I)は画像・画像翻訳(I2I)の強力なツールとして登場した。
本稿では,周波数制御拡散モデル(FCDiffusion)を提案する。
論文 参考訳(メタデータ) (2024-07-03T11:05:19Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。