論文の概要: AnchorDiff: Training-Free Concept Grounding for MM-DiTs via Anchor-Based Graph Propagation
- arxiv url: http://arxiv.org/abs/2605.26460v1
- Date: Tue, 26 May 2026 02:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.578043
- Title: AnchorDiff: Training-Free Concept Grounding for MM-DiTs via Anchor-Based Graph Propagation
- Title(参考訳): AnchorDiff: Anchor-based Graph PropagationによるMM-DiTの学習自由概念グラウンド
- Authors: Jian Zhang, Zhijun Zhang,
- Abstract要約: AnchorDiffは、構造的洗練からセマンティックローカライゼーションを分離する訓練自由接地法である。
このグラフは、高密度なオブジェクト内伝搬のための出力空間類似性と、クロスオブジェクト接続を抑制するための行ワイドアテンションゲートを使用する。
実験により、AnchorDiffはImageNet-SegmentationとPascalVOCで強力な基盤性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 6.411145731142763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Modal Diffusion Transformers (MM-DiTs) encode rich representations for training-free concept grounding, but existing attention-based methods often produce overlapping activations on visually confusable concepts, a failure mode we call concept leakage, where target responses spill over to non-target objects. To address this issue, we propose AnchorDiff, a training-free grounding method that decouples semantic localization from structural refinement. AnchorDiff selects a high-confidence anchor from concept-to-image attention map and propagates it as a one-hot seed over a hybrid graph derived from image-to-image self-attention. The graph uses output-space similarity for dense within-object propagation and a row-wise attention gate to suppress cross-object connections. Additionally, we introduce the Multi-Concept Confusion Dataset, which contains images with multiple visually similar concepts and separate masks, enabling explicit evaluation of concept leakage. Experiments show that AnchorDiff achieves strong grounding performance on ImageNet-Segmentation and PascalVOC, while substantially reducing concept leakage on our Multi-Concept Confusion Dataset.
- Abstract(参考訳): マルチモード拡散変換器(MM-DiT)は、トレーニング不要な概念基盤のためのリッチな表現を符号化するが、既存の注意に基づく手法は、視覚的に不都合な概念に対して重なり合うアクティベーションを生成することが多い。
この問題に対処するために,構造的洗練から意味的ローカライゼーションを分離する訓練自由接地手法であるAnchorDiffを提案する。
AnchorDiffはコンセプト・ツー・イメージ・アテンションマップから高信頼アンカーを選択し、イメージ・ツー・イメージ・セルフアテンションから派生したハイブリッドグラフ上で1ホットシードとして伝播する。
このグラフは、高密度なオブジェクト内伝搬のための出力空間類似性と、クロスオブジェクト接続を抑制するための行ワイドアテンションゲートを使用する。
さらに、視覚的に類似した複数の概念とマスクを分離した画像を含むマルチコンセプト・コンフュージョン・データセットを導入し、概念漏洩の明示的な評価を可能にした。
実験により、AnchorDiffはImageNet-SegmentationとPascalVOCで強力な基盤性能を実現し、マルチコンセプト・コンフュージョン・データセットにおける概念リークを大幅に低減した。
関連論文リスト
- Concept Unlearning via Cross-Attention Activation Projection for Diffusion Models [6.701045531467819]
概念アンラーニングは、事前訓練されたテキスト-画像拡散モデルからターゲット概念を再トレーニングせずに消去することを目的としている。
既存のクローズドフォームメソッドは、テキストエンコーダの応答を通じてターゲット概念を表現する。
本稿では,層間相互アテンションアクティベーションからベースを隠蔽・保持するクローズドフォーム手法PUREを提案する。
論文 参考訳(メタデータ) (2026-05-25T12:18:47Z) - UniCustom: Unified Visual Conditioning for Multi-Reference Image Generation [65.53694602893042]
VLMエンコーディングの前にVTとVAE機能を融合した統合ビジュアルコンディショニングフレームワークを提案する。
2つのマルチ参照生成ベンチマークの実験により、UniCustomは主題の一貫性、命令従順、構成の忠実さを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-05-12T13:10:05Z) - ConceptSplit: Decoupled Multi-Concept Personalization of Diffusion Models via Token-wise Adaptation and Attention Disentanglement [15.939409734710198]
本研究では,個別概念を学習と推論によって分割する新しいフレームワークであるConceptSplitを提案する。
まず,ToVA(Token-wise Value Adaptation)を導入する。
第2に,遠絡注意のための潜在最適化(LODA)を提案する。
論文 参考訳(メタデータ) (2025-10-06T10:22:46Z) - Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。
関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文 参考訳(メタデータ) (2025-03-25T15:49:48Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - Compositional Inversion for Stable Diffusion Models [64.79261401944994]
ユーザ画像から提供される関心の概念を取り入れてパーソナライズされた画像を生成する。
既存の方法はしばしば過度に適合する問題に悩まされ、倒立概念の圧倒的な存在が他の望ましい概念の欠如につながっている。
本稿では,合成埋め込みのコア分布への反転過程を導出する手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T10:57:46Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。