論文の概要: DreamReader: An Interpretability Toolkit for Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2603.13299v1
- Date: Mon, 02 Mar 2026 05:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.280623
- Title: DreamReader: An Interpretability Toolkit for Text-to-Image Models
- Title(参考訳): DreamReader: テキスト-画像モデルのための解釈可能性ツールキット
- Authors: Nirmalendu Prakash, Narmeen Oozeer, Michael Lan, Luka Samkharadze, Phillip Howard, Roy Ka-Wei Lee, Dhruv Nathawani, Shivam Raval, Amirali Abdullah,
- Abstract要約: 我々はDreamReaderを紹介した。DreamReaderは、拡散解釈可能性を構成可能な表現演算子として形式化するフレームワークである。
DreamReaderは、拡散アーキテクチャを横断する体系的な分析と介入を可能にする、モデルに依存しない抽象化層を提供する。
我々は, (i) 2つのモデル間のアクティベーションステッチを行う制御実験を通じてDreamReaderを実証し, (ii) 複数のアクティベーションユニットを操るためにLoReFTを適用した。
- 参考スコア(独自算出の注目度): 11.153644326972511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid adoption of text-to-image (T2I) diffusion models, causal and representation-level analysis remains fragmented and largely limited to isolated probing techniques. To address this gap, we introduce DreamReader: a unified framework that formalizes diffusion interpretability as composable representation operators spanning activation extraction, causal patching, structured ablations, and activation steering across modules and timesteps. DreamReader provides a model-agnostic abstraction layer enabling systematic analysis and intervention across diffusion architectures. Beyond consolidating existing methods, DreamReader introduces three novel intervention primitives for diffusion models: (1) representation fine-tuning (LoReFT) for subspace-constrained internal adaptation; (2) classifier-guided gradient steering using MLP probes trained on activations; and (3) component-level cross-model mapping for systematic study of transferability of representations across modalities. These mechanisms allows us to do lightweight white-box interventions on T2I models by drawing inspiration from interpretability techniques on LLMs. We demonstrate DreamReader through controlled experiments that (i) perform activation stitching between two models, and (ii) apply LoReFT to steer multiple activation units, reliably injecting a target concept into the generated images. Experiments are specified declaratively and executed in controlled batched pipelines to enable reproducible large-scale analysis. Across multiple case studies, we show that techniques adapted from language model interpretability yield promising and controllable interventions in diffusion models. DreamReader is released as an open source toolkit for advancing research on T2I interpretability.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルが急速に採用されているにもかかわらず、因果解析と表現レベルの分析は断片化され、主に孤立した探索技術に限られている。
このギャップに対処するために、DreamReaderを紹介します。DreamReaderは、モジュールとタイムステップをまたいだ、アクティベーション抽出、因果パッチング、構造化アブレーション、アクティベーションステアリングを対象とする、コンポーザブルな表現演算子として拡散解釈可能性を形式化する統合フレームワークです。
DreamReaderは、拡散アーキテクチャを横断する体系的な分析と介入を可能にする、モデルに依存しない抽象化層を提供する。
既存の手法の統合に加えて,DreamReaderでは,(1)部分空間制約付き内部適応のための表現微調整(LoReFT),(2)アクティベーションに基づいて訓練されたMLPプローブを用いた分類器誘導勾配ステアリング,(3)モダリティ間の表現の系統的研究のためのコンポーネントレベルのクロスモデルマッピングという,拡散モデルの新たな介入プリミティブを導入している。
これらのメカニズムにより、LLMの解釈可能性技術からインスピレーションを得て、T2Iモデルに軽量なホワイトボックス介入を行うことができる。
制御された実験を通してDreamReaderを実証する
(i)2つのモデルの活性化縫合を行い、
2)LoReFTを適用して複数のアクティベーションユニットを操り、生成した画像に目標概念を確実に注入する。
実験は宣言的に指定され、再現可能な大規模な分析を可能にするために、制御されたバッチパイプラインで実行される。
複数のケーススタディにおいて,言語モデルの解釈可能性に適応した手法が,拡散モデルにおける有望かつ制御可能な介入をもたらすことを示す。
DreamReaderは、T2I解釈可能性の研究を進めるためのオープンソースツールキットとしてリリースされた。
関連論文リスト
- Multi-modal Knowledge Distillation-based Human Trajectory Forecasting [35.060041571520024]
歩行者の軌道予測は、自律運転や移動ロボットナビゲーションといった様々な用途において重要である。
このようなアプリケーションでは、カメラベースの知覚により、追加のモダリティ(人間のポーズ、テキスト)の抽出が可能になり、予測精度が向上する。
そこで本研究では,多モードの知識蒸留フレームワークを提案する。多モードの知識蒸留を訓練した教師モデルから,限られたモダリティを持つ学生モデルを蒸留する。
論文 参考訳(メタデータ) (2025-03-28T07:32:51Z) - Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。
LLMの能力をフル活用するための新しいフレームワークを提案する。
さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文 参考訳(メタデータ) (2024-06-17T17:59:43Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - DreamDistribution: Learning Prompt Distribution for Diverse In-distribution Generation [51.24734569887687]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。