論文の概要: Image is All You Need to Empower Large-scale Diffusion Models for In-Domain Generation
- arxiv url: http://arxiv.org/abs/2312.08195v2
- Date: Thu, 20 Mar 2025 04:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:51.638439
- Title: Image is All You Need to Empower Large-scale Diffusion Models for In-Domain Generation
- Title(参考訳): 大規模拡散モデルのイン・ドメイン・ジェネレーションへの活用に必要な画像
- Authors: Pu Cao, Feng Zhou, Lu Yang, Tianrui Huang, Qing Song,
- Abstract要約: ドメイン内生成は、unconditional generation、text-to-image、画像編集、3D生成など、特定のドメイン内でさまざまなタスクを実行することを目的としている。
初期の研究は通常、特定のタスクとドメインごとに特別なジェネレータを訓練する必要があり、しばしば完全にラベル付けされたデータに依存していた。
強力な生成能力と拡散モデルの幅広い応用により、私たちは、これらのモデルをドメイン内生成に活用するためにラベルのないデータを活用することを模索しています。
- 参考スコア(独自算出の注目度): 7.1629002695210024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-domain generation aims to perform a variety of tasks within a specific domain, such as unconditional generation, text-to-image, image editing, 3D generation, and more. Early research typically required training specialized generators for each unique task and domain, often relying on fully-labeled data. Motivated by the powerful generative capabilities and broad applications of diffusion models, we are driven to explore leveraging label-free data to empower these models for in-domain generation. Fine-tuning a pre-trained generative model on domain data is an intuitive but challenging way and often requires complex manual hyper-parameter adjustments since the limited diversity of the training data can easily disrupt the model's original generative capabilities. To address this challenge, we propose a guidance-decoupled prior preservation mechanism to achieve high generative quality and controllability by image-only data, inspired by preserving the pre-trained model from a denoising guidance perspective. We decouple domain-related guidance from the conditional guidance used in classifier-free guidance mechanisms to preserve open-world control guidance and unconditional guidance from the pre-trained model. We further propose an efficient domain knowledge learning technique to train an additional text-free UNet copy to predict domain guidance. Besides, we theoretically illustrate a multi-guidance in-domain generation pipeline for a variety of generative tasks, leveraging multiple guidances from distinct diffusion models and conditions. Extensive experiments demonstrate the superiority of our method in domain-specific synthesis and its compatibility with various diffusion-based control methods and applications.
- Abstract(参考訳): ドメイン内生成は、unconditional generation、text-to-image、画像編集、3D生成など、特定のドメイン内でさまざまなタスクを実行することを目的としている。
初期の研究は通常、特定のタスクとドメインごとに特別なジェネレータを訓練する必要があり、しばしば完全にラベル付けされたデータに依存していた。
強力な生成能力と拡散モデルの幅広い応用により、私たちは、これらのモデルをドメイン内生成に活用するためにラベルのないデータを活用することを模索しています。
ドメインデータに事前トレーニングされた生成モデルを微調整することは直感的だが難しい方法であり、トレーニングデータの限られた多様性がモデルのオリジナルの生成能力を混乱させる可能性があるため、複雑な手動のハイパーパラメータ調整を必要とすることが多い。
この課題に対処するために,画像のみのデータによる高い生成品質と制御性を実現するための誘導分離型事前保存機構を提案する。
我々は、未学習モデルからオープンワールドコントロールガイダンスと無条件ガイダンスを保存するために、クラス化不要誘導機構で使用される条件ガイダンスからドメイン関連ガイダンスを分離する。
さらに、テキストのないUNetコピーをトレーニングしてドメインガイダンスを予測するための効率的なドメイン知識学習手法を提案する。
さらに,異なる拡散モデルと条件からの複数のガイダンスを活用することにより,様々な生成タスクのためのマルチガイダンス・イン・ドメイン生成パイプラインを理論的に記述する。
拡張実験により,ドメイン固有合成における本手法の優位性と,様々な拡散制御法や応用との整合性を実証した。
関連論文リスト
- Domain Guidance: A Simple Transfer Approach for a Pre-trained Diffusion Model [62.11981915549919]
ドメインガイダンス(Domain Guidance)は、トレーニング済みの知識を活用して、サンプリングプロセスを対象のドメインに誘導する移行アプローチである。
FIDは19.6%改善し、FD$_textDINOv2$は23.4%改善した。
論文 参考訳(メタデータ) (2025-04-02T09:07:55Z) - Object Style Diffusion for Generalized Object Detection in Urban Scene [69.04189353993907]
本稿では,GoDiffという新しい単一ドメインオブジェクト検出一般化手法を提案する。
擬似ターゲットドメインデータとソースドメインデータを統合することで、トレーニングデータセットを多様化する。
実験により,本手法は既存の検出器の一般化能力を高めるだけでなく,他の単一領域一般化手法のプラグ・アンド・プレイ拡張として機能することが示された。
論文 参考訳(メタデータ) (2024-12-18T13:03:00Z) - How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文 参考訳(メタデータ) (2024-08-07T08:43:58Z) - ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction [20.43411883845885]
本研究では,非教師付き概念抽出(UCE)という,概念の人間的知識のない非教師付き概念抽出手法を提案する。
複数の概念を含むイメージを与えられたタスクは、事前訓練された拡散モデルから既存の知識のみに依存する個々の概念を抽出し、再現することを目的としている。
本稿では,事前学習した拡散モデル固有の能力を2つの側面に解き放つことで,UCEに対処するConceptExpressを提案する。
論文 参考訳(メタデータ) (2024-07-09T17:50:28Z) - Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z) - Infusion: Preventing Customized Text-to-Image Diffusion from Overfitting [51.606819347636076]
本研究では, 概念知識を損なう概念非依存オーバーフィッティングと, 限られたモダリティのカスタマイズに限定した概念特化オーバーフィッティングを分析した。
Infusionは、ターゲット概念の学習を、限られた訓練モダリティによって制限されるのを避けることができるT2Iカスタマイズ手法である。
論文 参考訳(メタデータ) (2024-04-22T09:16:25Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。
MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。
視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Multi-BERT: Leveraging Adapters and Prompt Tuning for Low-Resource Multi-Domain Adaptation [14.211024633768986]
テキストのボリュームと多様性の急速な拡大は、マルチドメイン設定において重大な課題を生じさせる。
従来のアプローチでは、複数のドメインに統一モデルを採用するか、各ドメインに個別モデルを使用するかのいずれかが、しばしば重大な制限を課している。
本稿では,複数のドメイン固有パラメータからなる1つのコアモデルからなる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-02T22:15:48Z) - LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models [33.379758040084894]
ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。
既存のアプローチでは、複数のローランド適応(LoRA)の融合行列をトレーニングして、さまざまな概念をひとつのイメージにマージすることが多い。
LoRA-Composerは、複数のLoRAをシームレスに統合するために設計されたトレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2024-03-18T09:58:52Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image
Generation using Limited Data [20.998032566820907]
本稿では,大規模ソースデータセット上で事前学習したDDPMを限定データを用いて対象ドメインに適応する新しいDomainStudioアプローチを提案する。
ソースドメインが提供する主題の多様性を維持し、ターゲットドメインに高品質で多様な適応型サンプルを取得するように設計されている。
論文 参考訳(メタデータ) (2023-06-25T07:40:39Z) - Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept
Customization of Diffusion Models [72.67967883658957]
低ランク適応(LoRA)を用いた新しい概念に対して、公共の大規模テキスト・画像拡散モデルを簡単にカスタマイズできる。
複数のカスタマイズされた概念を共同でサポートするために複数の概念LoRAを利用することは、課題である。
我々は、分散化されたマルチコンセプトカスタマイズの課題に対処するMix-of-Showと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:58:16Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - On Balancing Bias and Variance in Unsupervised Multi-Source-Free Domain
Adaptation [6.2200089460762085]
マルチソースフリードメイン適応(MSFDA)の方法は、典型的には、ソースモデルによって生成された擬似ラベル付きデータを使用してターゲットモデルを訓練する。
得られた対象モデルの一般化誤差に基づく情報理論境界を開発する。
次に、ドメインアグリゲーション、選択的な擬似ラベル付け、共同機能アライメントといった3つの視点から、このトレードオフのバランスをとる方法についての洞察を提供します。
論文 参考訳(メタデータ) (2022-02-01T22:34:18Z) - A Novel Mix-normalization Method for Generalizable Multi-source Person
Re-identification [49.548815417844786]
人物再識別(Re-ID)は、監督されたシナリオにおいて大きな成功を収めた。
モデルがソースドメインに過度に適合するため、教師付きモデルを任意の未確認領域に直接転送することは困難である。
ドメイン・アウェア・ミックス正規化(DMN)とドメイン・ウェア・センター正規化(DCR)からなるMixNormを提案する。
論文 参考訳(メタデータ) (2022-01-24T18:09:38Z) - Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文 参考訳(メタデータ) (2021-11-04T17:46:12Z) - Learning to Generate Novel Domains for Domain Generalization [115.21519842245752]
本稿では,未知の領域によく一般化するモデルとして,複数のソースドメインから学習するタスクに焦点を当てる。
我々は、擬似ノーベル領域からデータを合成し、ソースドメインを増強するためにデータジェネレータを用いる。
我々の手法であるL2A-OTは、4つのベンチマークデータセット上で現在最先端のDG手法より優れています。
論文 参考訳(メタデータ) (2020-07-07T09:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。