論文の概要: Localizing Knowledge in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2505.18832v1
- Date: Sat, 24 May 2025 19:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.688232
- Title: Localizing Knowledge in Diffusion Transformers
- Title(参考訳): 拡散変換器における局所的知識
- Authors: Arman Zarei, Samyadeep Basu, Keivan Rezaei, Zihao Lin, Sayan Nag, Soheil Feizi,
- Abstract要約: 本研究では,Diffusion Transformerブロック内に特定の種類の知識がエンコードされている場所をローカライズするモデルおよび知識に依存しない手法を提案する。
同定されたブロックは、生成した出力における知識表現と因果関係があることが示される。
本研究は、DiTの内部構造に関する新たな知見を提供し、より解釈可能で、効率的で、制御可能なモデル編集のための実践的な経路を導入する。
- 参考スコア(独自算出の注目度): 44.27817967554535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how knowledge is distributed across the layers of generative models is crucial for improving interpretability, controllability, and adaptation. While prior work has explored knowledge localization in UNet-based architectures, Diffusion Transformer (DiT)-based models remain underexplored in this context. In this paper, we propose a model- and knowledge-agnostic method to localize where specific types of knowledge are encoded within the DiT blocks. We evaluate our method on state-of-the-art DiT-based models, including PixArt-alpha, FLUX, and SANA, across six diverse knowledge categories. We show that the identified blocks are both interpretable and causally linked to the expression of knowledge in generated outputs. Building on these insights, we apply our localization framework to two key applications: model personalization and knowledge unlearning. In both settings, our localized fine-tuning approach enables efficient and targeted updates, reducing computational cost, improving task-specific performance, and better preserving general model behavior with minimal interference to unrelated or surrounding content. Overall, our findings offer new insights into the internal structure of DiTs and introduce a practical pathway for more interpretable, efficient, and controllable model editing.
- Abstract(参考訳): 生成モデルの層にまたがる知識の分散を理解することは、解釈可能性、制御可能性、適応性を改善するために不可欠である。
以前の研究では、UNetベースのアーキテクチャにおける知識ローカライゼーションを探求していたが、Diffusion Transformer(DiT)ベースのモデルは、この文脈では未検討のままである。
本稿では,DiTブロック内に特定の種類の知識がエンコードされている場所をローカライズするためのモデルおよび知識に依存しない手法を提案する。
PixArt-alpha, FLUX, SANAを含む最先端のDiTモデルについて, 6種類の知識カテゴリで評価した。
同定されたブロックは、生成した出力における知識表現と因果関係があることが示される。
これらの知見に基づいて、モデルパーソナライズと知識アンラーニングという2つの主要なアプリケーションにローカライズフレームワークを適用します。
両方の設定において、局所的な微調整アプローチは、効率的でターゲットとなる更新を可能にし、計算コストを削減し、タスク固有の性能を改善し、非関連コンテンツや周辺コンテンツへの干渉を最小限に抑えながら、一般的なモデル行動の保存を改善する。
全体として、我々は、DiTの内部構造に関する新たな洞察を提供し、より解釈可能で、効率的で、制御可能なモデル編集のための実践的な経路を導入しました。
関連論文リスト
- Empirical Evaluation of Knowledge Distillation from Transformers to Subquadratic Language Models [3.287942619833188]
本研究では,トランスフォーマーの教師モデルから8つのサブクワッドラティックな学生アーキテクチャへの知識蒸留の伝達可能性について,体系的に評価する。
本研究では,教師モデルの知識蒸留による学習表現を最も効果的に近似できるサブクワッドラティックモデルについて検討した。
論文 参考訳(メタデータ) (2025-04-19T17:49:52Z) - Quantized and Interpretable Learning Scheme for Deep Neural Networks in Classification Task [0.0]
本稿では,サリエンシ誘導学習と量子化技術を組み合わせて,解釈可能かつ資源効率のよいモデルを構築するアプローチを提案する。
以上の結果から,Saliency-Guided Training と PACT-based Quantization の併用は,分類性能を維持するだけでなく,より効率的かつ解釈可能なモデルを生成することが示唆された。
論文 参考訳(メタデータ) (2024-12-05T06:34:06Z) - Structure-aware Domain Knowledge Injection for Large Language Models [38.08691252042949]
StructTuningは、大規模言語モデル(LLM)をドメインスペシャリストに変換する方法論である。
従来の知識注入性能の100パーセントを達成しながら、トレーニングコーパスに必要なトレーニングコーパスをわずか5%削減します。
論文 参考訳(メタデータ) (2024-07-23T12:38:48Z) - Contextualized Structural Self-supervised Learning for Ontology Matching [0.9402105308876642]
我々はLaKERMapと呼ばれる新しい自己教師型学習フレームワークを導入する。
LaKERMapは暗黙の知識をトランスフォーマーに統合することで、概念の文脈的および構造的情報を活用する。
我々の革新的なアプローチから得られた知見は、LaKERMapがアライメント品質と推論時間で最先端のシステムを上回っていることを示している。
論文 参考訳(メタデータ) (2023-10-05T18:51:33Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Plug-and-Play Knowledge Injection for Pre-trained Language Models [116.37916535076478]
外部知識を注入することで、様々な下流NLPタスクにおける事前学習言語モデル(PLM)の性能を向上させることができる。
下流タスクのための新しい知識注入方法や知識ベースを展開するには、大規模な再訓練が必要である。
既存の下流モデルを用いて知識注入の柔軟性と効率を改善する方法について検討する。
論文 参考訳(メタデータ) (2023-05-28T10:58:00Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Towards Interpretable Deep Learning Models for Knowledge Tracing [62.75876617721375]
本稿では,深層学習に基づく知識追跡(DLKT)モデルの解釈可能性問題に対処するポストホック手法を提案する。
具体的には、RNNに基づくDLKTモデルを解釈するために、レイヤワイズ関連伝搬法(LRP)を適用することに焦点をあてる。
実験結果から,DLKTモデルの予測をLRP法で解釈できることを示す。
論文 参考訳(メタデータ) (2020-05-13T04:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。