論文の概要: Diagnosing and Correcting Concept Omission in Multimodal Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.14270v1
- Date: Thu, 14 May 2026 02:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.579758
- Title: Diagnosing and Correcting Concept Omission in Multimodal Diffusion Transformers
- Title(参考訳): 多モード拡散変圧器の診断と補正
- Authors: Kanghyun Baek, Jaihyun Lew, Chaehun Shin, Jungbeom Lee, Sungroh Yoon,
- Abstract要約: テキスト埋め込みは,対象概念の欠如を表す特徴的省略信号」を識別できることを示す。
本稿では,欠落した概念の生成を積極的に触媒するオミッション信号の増幅を行うオミッション信号干渉(OSI)を提案する。
- 参考スコア(独自算出の注目度): 48.30953745205116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress in text-to-image generation, yet they frequently suffer from concept omission, where specified objects or attributes fail to emerge in the generated image. By performing linear probing on text tokens, we demonstrate that text embeddings can distinguish a characteristic `omission signal' representing the absence of target concepts. Leveraging this insight, we propose Omission Signal Intervention (OSI), which amplifies the omission signal to actively catalyze the generation of missing concepts. Comprehensive experiments on FLUX.1-Dev and SD3.5-Medium demonstrate that OSI significantly alleviates concept omission even in extreme scenarios.
- Abstract(参考訳): マルチモーダル拡散変換器(MM-DiT)は、テキスト・画像生成において顕著な進歩を遂げているが、特定のオブジェクトや属性が生成した画像に現れない概念の欠落に悩まされることが多い。
テキストトークン上で線形探索を行うことにより、テキスト埋め込みがターゲット概念の欠如を表す特徴的な「許可信号」を識別できることを実証する。
この知見を生かしたオミッション信号干渉(Omission Signal Intervention,OSI)を提案する。
FLUX.1-Dev と SD3.5-Medium に関する総合的な実験により、OSI は極端なシナリオにおいても概念の省略を著しく緩和することを示した。
関連論文リスト
- From Local to Global to Mechanistic: An iERF-Centered Unified Framework for Interpreting Vision Models [29.908678230814015]
iERF中心のフレームワークを導入し,局所的,グローバル的,メカニスティックな1つの解析ユニットの解釈性を統一する。
局所的に、共有比(Sharing Ratio Decomposition, SRD)は、各PFVを、共有比を介して上流のPFVの混合として表現し、iERFを伝播して、クラス別サリエンシマップを構築する。
グローバルな視点では,iERFをセマンティックラベルとして利用するConcept-Anchored Feature Explanation (CAFE)を導入する。
論文 参考訳(メタデータ) (2026-05-01T07:25:49Z) - From Attenuation to Attention: Variational Information Flow Manipulation for Fine-Grained Visual Perception [12.4823697158657]
MLLM(Multimodal Large Language Models)は、一般的な視覚的理解において印象的な能力を示す。
彼らはしばしば、小さな物体を識別したり、微妙な視覚的関係を識別する必要のある、きめ細かい知覚タスクに干渉する。
この制限は、ネットワーク伝搬中の支配的なテキストトークンによって、細粒度の細かい視覚信号が早期に抑制または希釈される現象である、視覚減衰に起因している。
既存の入力中心のソリューションは、情報損失の本質的なメカニズムを根本的に逆転させることができない。
本稿では,この課題に対処するための変動情報フロー(VIF)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T09:32:13Z) - Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation [81.40978077888693]
対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。
近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。
我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
論文 参考訳(メタデータ) (2026-03-05T04:45:49Z) - Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - Explainable Visual Anomaly Detection via Concept Bottleneck Models [10.62920652801205]
本稿では,視覚異常検出設定にConcept Bottleneck Models(CBM)を拡張することを提案する。
CBMは、人間の解釈可能な異常の説明を提供し、それらを説明する新しい、より洞察に富んだ方法を提供する。
提案手法であるconcept-Aware Visual Anomaly Detection (CONVAD) は,従来のVAD法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-11-25T09:03:30Z) - Integrate-and-Fire from a Mathematical and Signal Processing Perspective [0.40964539027092917]
IF(Integrate-and-Fire)は、生体ニューロンのスパイクトリガ機構の理想的なモデルである。
しきい値に基づくサンプリングにおいて,IF は Send-on-Delta (SOD) の概念と密接に関連していることを示す。
論文 参考訳(メタデータ) (2025-01-20T12:39:12Z) - Energy-Based Cross Attention for Bayesian Context Update in
Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。
具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。
我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文 参考訳(メタデータ) (2023-06-16T14:30:41Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。