論文の概要: ConceptWeaver: Weaving Disentangled Concepts with Flow
- arxiv url: http://arxiv.org/abs/2603.28493v1
- Date: Mon, 30 Mar 2026 14:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.442185
- Title: ConceptWeaver: Weaving Disentangled Concepts with Flow
- Title(参考訳): ConceptWeaver: 分離されたコンセプトをフローで織る
- Authors: Jintao Chen, Aiming Hao, Xiaoqing Chen, Chengyu Bai, Chubin Chen, Yanxun Li, Jiahong Wu, Xiangxiang Chu, Shanghang Zhang,
- Abstract要約: 本稿では,個々の概念トークンが時間とともに速度場に与える影響を分離し,解析する新しい手法を提案する。
生成過程はモノリシックではなく、3つの異なる段階で展開される。
ワンショットコンセプトディスタングルのためのフレームワークである textbfConceptWeaver を提案する。
- 参考スコア(独自算出の注目度): 44.081774159272705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained flow-based models excel at synthesizing complex scenes yet lack a direct mechanism for disentangling and customizing their underlying concepts from one-shot real-world sources. To demystify this process, we first introduce a novel differential probing technique to isolate and analyze the influence of individual concept tokens on the velocity field over time. This investigation yields a critical insight: the generative process is not monolithic but unfolds in three distinct stages. An initial \textbf{Blueprint Stage} establishes low-frequency structure, followed by a pivotal \textbf{Instantiation Stage} where content concepts emerge with peak intensity and become naturally disentangled, creating an optimal window for manipulation. A final concept-insensitive refinement stage then synthesizes fine-grained details. Guided by this discovery, we propose \textbf{ConceptWeaver}, a framework for one-shot concept disentanglement. ConceptWeaver learns concept-specific semantic offsets from a single reference image using a stage-aware optimization strategy that aligns with the three-stage framework. These learned offsets are then deployed during inference via our novel ConceptWeaver Guidance (CWG) mechanism, which strategically injects them at the appropriate generative stage. Extensive experiments validate that ConceptWeaver enables high-fidelity, compositional synthesis and editing, demonstrating that understanding and leveraging the intrinsic, staged nature of flow models is key to unlocking precise, multi-granularity content manipulation.
- Abstract(参考訳): トレーニング済みのフローベースモデルは複雑なシーンの合成に優れていますが、その基礎となる概念を1ショットの現実世界のソースから切り離し、カスタマイズするための直接的なメカニズムが欠如しています。
この過程をデミスティフィケーションするために、我々はまず、個々の概念トークンが時間とともに速度場に与える影響を分離し解析する新しい微分プローブ技術を導入する。
生成過程はモノリシックではなく、3つの異なる段階で展開される。
初期 \textbf{Blueprint Stage} は低周波構造を確立し、次に中心的な \textbf{Instantiation Stage} が続く。
最終的な概念不感な精製段階は、細粒度の詳細を合成する。
この発見に導かれ、一発概念のゆがみのためのフレームワークである \textbf{ConceptWeaver} を提案する。
ConceptWeaverは、概念固有のセマンティックオフセットを、ステージ対応最適化戦略を使用して、単一の参照イメージから学習する。
これらの学習されたオフセットは、新しいConceptWeaver Guidance(CWG)メカニズムを介して推論中にデプロイされ、適切な生成段階で戦略的に注入される。
大規模な実験により、ConceptWeaverは高忠実性、合成、編集を可能にし、フローモデルの本質的、ステージ化された性質を理解し、活用することが、正確で多彩なコンテンツ操作の鍵であることを実証した。
関連論文リスト
- Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition [81.2779530670268]
VLM(Vision-Language Models)は、ゼロショット画像認識を著しく進歩させたモデルである。
本稿では、クラス固有の概念を取り入れることで、プロンプトを強化する。
我々の手法は一貫して最先端の手法より優れている。
論文 参考訳(メタデータ) (2026-03-09T03:11:11Z) - HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - FACE: Faithful Automatic Concept Extraction [4.417419748257645]
FACE(Faithful Automatic Concept extract)は、KL(Kullback-Leibler)の発散正規化項で非負行列因子化(NMF)を強化する新しいフレームワークである。
我々は,KL分散の最小化が予測分布の偏差を制限し,学習された概念空間における忠実な局所線型性を促進することを理論的保証する。
論文 参考訳(メタデータ) (2025-10-13T17:44:45Z) - ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models [60.30998818833206]
ICEは内在概念抽出(Intrinsic Concept extract)の略で、1つの画像から内在概念を抽出する新しいフレームワークである。
本フレームワークは、教師なしの方法で単一の画像から本質的な概念抽出を行う上で、優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-25T17:58:29Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Coarse-to-Fine Concept Bottleneck Models [9.910980079138206]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
我々のゴールは、人間の理解可能な概念を2段階の粒度で、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することである。
この枠組みでは、概念情報は全体像と一般的な非構造概念の類似性にのみ依存せず、画像シーンのパッチ固有の領域に存在するより粒度の細かい概念情報を発見・活用するために概念階層の概念を導入している。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。