論文の概要: EruDiff: Refactoring Knowledge in Diffusion Models for Advanced Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2603.20828v1
- Date: Sat, 21 Mar 2026 14:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.106927
- Title: EruDiff: Refactoring Knowledge in Diffusion Models for Advanced Text-to-Image Synthesis
- Title(参考訳): EruDiff: 高度なテキスト・画像合成のための拡散モデルにおけるリファクタリング知識
- Authors: Xiefan Guo, Xinzhu Ma, Haoxiang Ma, Zihao Zhou, Di Huang,
- Abstract要約: EruDiffは、難解な暗黙のプロンプトの知識分布を、明確に定義された明示的なアンカーの知識分布と整合させることを目指している。
そこで我々はDK-DM (Diffusion Knowledge Distribution Matching) を開発し、暗黙的なプロンプトの知識分布を、明確に定義された明示的なアンカーの知識分布に登録する。
我々は, きめ細かい補正にNO-RL戦略を用いる。
- 参考スコア(独自算出の注目度): 49.883192716595026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have achieved remarkable fidelity in synthesizing images from explicit text prompts, yet exhibit a critical deficiency in processing implicit prompts that require deep-level world knowledge, ranging from natural sciences to cultural commonsense, resulting in counter-factual synthesis. This paper traces the root of this limitation to a fundamental dislocation of the underlying knowledge structures, manifesting as a chaotic organization of implicit prompts compared to their explicit counterparts. In this paper, we propose EruDiff, which aims to refactor the knowledge within diffusion models. Specifically, we develop the Diffusion Knowledge Distribution Matching (DK-DM) to register the knowledge distribution of intractable implicit prompts with that of well-defined explicit anchors. Furthermore, to rectify the inherent biases in explicit prompt rendering, we employ the Negative-Only Reinforcement Learning (NO-RL) strategy for fine-grained correction. Rigorous empirical evaluations demonstrate that our method significantly enhances the performance of leading diffusion models, including FLUX and Qwen-Image, across both the scientific knowledge benchmark (i.e., Science-T2I) and the world knowledge benchmark (i.e., WISE), underscoring the effectiveness and generalizability. Our code is available at https://github.com/xiefan-guo/erudiff.
- Abstract(参考訳): テキスト・ツー・イメージの拡散モデルは、明示的なテキスト・プロンプトから画像の合成において顕著な忠実さを達成しているが、自然科学から文化的コモンセンスまで、深い世界知識を必要とする暗黙的なプロンプトの処理において重要な欠陥を呈している。
本稿は,この制限のルーツを基礎となる知識構造の根本的な転位に遡り,暗黙的なプロンプトのカオス的組織として顕在化している。
本稿では,拡散モデルにおける知識のリファクタリングを目的としたEruDiffを提案する。
具体的には、難解な暗黙的プロンプトの知識分布を、明確に定義された明示的アンカーの知識分布に登録する拡散知識分布マッチング(DK-DM)を開発する。
さらに、明示的なプロンプトレンダリングにおいて固有のバイアスを是正するために、Native-Only Reinforcement Learning (NO-RL) 戦略を用いて、きめ細かい補正を行う。
科学的知識ベンチマーク (Science-T2I) と世界知識ベンチマーク (WISE) の両方で, FLUX や Qwen-Image など主要な拡散モデルの性能を著しく向上させることが実証された。
私たちのコードはhttps://github.com/xiefan-guo/erudiff.comで公開されています。
関連論文リスト
- Few-Step Distillation for Text-to-Image Generation: A Practical Guide [60.99392100471019]
拡散蒸留はクラス条件画像合成を劇的に加速させたが、T2I生成への適用性はまだ不明である。
本稿では,T2I 教師モデル FLUX.1-lite を用いて,最先端の蒸留技術を適用し,比較する最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2025-12-15T05:58:36Z) - Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL [19.094835780362775]
FSCIL(Few-Shot Class-Incremental Learning)は、最小限の例から新しいクラスを逐次学習するモデルに挑戦する。
現在のFSCIL法は、限られたデータセットに依存するため、一般化に苦慮することが多い。
本稿では拡散モデルとFSCIL分類器の相互強化ループを確立する新しいフレームワークであるDiffusion-Classifier Synergy(DCS)を紹介する。
論文 参考訳(メタデータ) (2025-10-04T01:48:52Z) - Causality-aligned Prompt Learning via Diffusion-based Counterfactual Generation [45.395353088233556]
理論的には、$textbfDi$ffusion-based $textbfC$ounterf$textbfa$ctual $textbfp$rompt学習フレームワークを導入します。
本手法は,画像分類,画像テキスト検索,視覚的質問応答などのタスクにおいて,特に目に見えないカテゴリにおいて優れた優位性を示す。
論文 参考訳(メタデータ) (2025-07-26T09:27:52Z) - Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models [63.43422118066493]
マシン・アンラーニング(MU)は安全でセキュアで信頼性の高いGenAIモデルを開発する上で重要な基盤である。
従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。
本稿では,拡散モデルにおいて望ましくない情報を忘れることを促進する革新的なMUアプローチであるScore Forgetting Distillation (SFD)を紹介する。
論文 参考訳(メタデータ) (2024-09-17T14:12:50Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。