Fugu-MT 論文翻訳(概要): Scaling Concept With Text-Guided Diffusion Models

論文の概要: Scaling Concept With Text-Guided Diffusion Models

arxiv url: http://arxiv.org/abs/2410.24151v1
Date: Thu, 31 Oct 2024 17:09:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.942456
Title: Scaling Concept With Text-Guided Diffusion Models
Title（参考訳）: テキスト誘導拡散モデルによるスケーリング概念
Authors: Chao Huang, Susan Liang, Yunlong Tang, Yapeng Tian, Anurag Kumar, Chenliang Xu,
Abstract要約: 概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか? ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
参考スコア（独自算出の注目度）: 53.80799139331966
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-guided diffusion models have revolutionized generative tasks by producing high-fidelity content from text descriptions. They have also enabled an editing paradigm where concepts can be replaced through text conditioning (e.g., a dog to a tiger). In this work, we explore a novel approach: instead of replacing a concept, can we enhance or suppress the concept itself? Through an empirical study, we identify a trend where concepts can be decomposed in text-guided diffusion models. Leveraging this insight, we introduce ScalingConcept, a simple yet effective method to scale decomposed concepts up or down in real input without introducing new elements. To systematically evaluate our approach, we present the WeakConcept-10 dataset, where concepts are imperfect and need to be enhanced. More importantly, ScalingConcept enables a variety of novel zero-shot applications across image and audio domains, including tasks such as canonical pose generation and generative sound highlighting or removal.
Abstract（参考訳）: テキスト誘導拡散モデルは、テキスト記述から高忠実度コンテンツを生成することによって、生成タスクに革命をもたらした。また、テキストコンディショニング(例えば虎の犬)を通じて概念を置き換える編集パラダイムも有効にしている。本研究では,概念を置き換える代わりに,概念自体を拡張あるいは抑制できるのか,という,新しいアプローチを探求する。実験的な研究を通じて、テキスト誘導拡散モデルにおいて概念を分解できる傾向を特定する。この知見を活用することで、ScalingConceptを導入します。これは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法です。このアプローチを体系的に評価するために、WeakConcept-10データセットを提示する。さらに重要なのは、ScalingConceptは、標準ポーズ生成や生成音声強調表示や削除といったタスクを含む、画像とオーディオドメインにわたる、さまざまな斬新なゼロショットアプリケーションを可能にすることだ。

関連論文リスト

ACE: Attentional Concept Erasure in Diffusion Models [0.0]
Attentional Concept Erasureは、クローズドフォームのアテンション操作と軽量な微調整を統合している。 ACEは最先端の概念の除去とロバスト性を実現する。従来の方法と比較して、ACEは一般性(概念と関連する用語)と特異性(無関係なコンテンツを保存する)のバランスが良い。
論文参考訳（メタデータ） (2025-04-16T08:16:28Z)
Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models [25.84386438333865]
概念とクラスは複雑な関係の網を形成しており、それは劣化しやすく、経験を通じて保存および拡張する必要がある。本研究では,マルチモーダルな概念を用いて,学習可能なパラメータの数を増やすことなく分類を行う新しい手法である MuCIL を提案する。
論文参考訳（メタデータ） (2025-02-27T18:59:29Z)
OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文参考訳（メタデータ） (2024-12-16T18:59:52Z)
Knowledge Transfer Across Modalities with Natural Language Supervision [8.493435472659646]
我々は,文章記述のみを用いて新しい概念を学習する方法を提示する。人間の知覚と同様に,異種間相互作用を活用して新しい概念を導入する。知識伝達は, マルチモーダルモデルにおける新しい概念を, 極めて効率的な方法で導入できることを示す。
論文参考訳（メタデータ） (2024-11-23T17:26:50Z)
How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文参考訳（メタデータ） (2024-10-23T06:47:29Z)
How to Blend Concepts in Diffusion Models [48.68800153838679]
近年の手法は複数の潜在表現とその関連性を利用しており、この研究はさらに絡み合っている。我々のゴールは、潜在空間における操作が根底にある概念にどのように影響するかを理解することです。我々の結論は、宇宙操作によるブレンドの概念は可能であるが、最良の戦略はブレンドの文脈に依存する。
論文参考訳（メタデータ） (2024-07-19T13:05:57Z)
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance [90.57708419344007]
新しい概念を学ぶ際に, 概念空間を明示的に規制するために, ** 連続保存損失** を利用するテクニックである **ClassDiffusion** を提示する。このアプローチは単純ではあるが、ターゲット概念の微調整過程における意味的ドリフトを効果的に防止する。
論文参考訳（メタデータ） (2024-05-27T17:50:10Z)
Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning [0.0]
本稿では,数発のアンラーニングを用いてテキストエンコーダを更新する新しい概念消去手法を提案する。提案手法は10秒以内に概念を消去し,概念の消去をこれまで以上に容易に行えるようにする。
論文参考訳（メタデータ） (2024-05-12T14:01:05Z)
Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文参考訳（メタデータ） (2023-10-11T12:05:44Z)
Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文参考訳（メタデータ） (2023-09-08T16:45:56Z)
The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文参考訳（メタデータ） (2023-06-01T17:57:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。