論文の概要: Nonparametric Data Attribution for Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.14269v1
- Date: Thu, 16 Oct 2025 03:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.706414
- Title: Nonparametric Data Attribution for Diffusion Models
- Title(参考訳): 拡散モデルにおける非パラメトリックデータ属性
- Authors: Yutian Zhao, Chao Du, Xiaosen Zheng, Tianyu Pang, Min Lin,
- Abstract要約: 生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
- 参考スコア(独自算出の注目度): 57.820618036556084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data attribution for generative models seeks to quantify the influence of individual training examples on model outputs. Existing methods for diffusion models typically require access to model gradients or retraining, limiting their applicability in proprietary or large-scale settings. We propose a nonparametric attribution method that operates entirely on data, measuring influence via patch-level similarity between generated and training images. Our approach is grounded in the analytical form of the optimal score function and naturally extends to multiscale representations, while remaining computationally efficient through convolution-based acceleration. In addition to producing spatially interpretable attributions, our framework uncovers patterns that reflect intrinsic relationships between training data and outputs, independent of any specific model. Experiments demonstrate that our method achieves strong attribution performance, closely matching gradient-based approaches and substantially outperforming existing nonparametric baselines. Code is available at https://github.com/sail-sg/NDA.
- Abstract(参考訳): 生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
既存の拡散モデルの方法は、通常、モデル勾配や再訓練へのアクセスを必要とし、プロプライエタリまたは大規模設定での適用性を制限する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
提案手法は最適スコア関数の解析形式を基礎として,畳み込みに基づく加速度による計算効率を保ちながら,自然にマルチスケール表現に拡張する。
我々のフレームワークは,空間的に解釈可能な属性を生成することに加えて,特定のモデルに依存しない,トレーニングデータと出力の本質的な関係を反映したパターンを明らかにする。
実験により,提案手法は強い帰属性,厳密な整合性に基づくアプローチ,および既存の非パラメトリックベースラインを著しく上回ることを示す。
コードはhttps://github.com/sail-sg/NDAで入手できる。
関連論文リスト
- Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
これらの課題に対処するための影響関数フレームワークを開発する。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Intriguing Properties of Data Attribution on Diffusion Models [33.77847454043439]
データ帰属は、望ましいアウトプットをトレーニングデータに戻そうとする。
データ属性は、高直感的または著作権のあるデータを適切に割り当てるためのモジュールになっている。
論文 参考訳(メタデータ) (2023-11-01T13:00:46Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Wavelet-Based Hybrid Machine Learning Model for Out-of-distribution
Internet Traffic Prediction [3.689539481706835]
本稿では,eXtreme Gradient Boosting, Light Gradient Boosting Machine, Gradient Descent, Gradient Boosting Regressor, Cat Regressorを用いた機械学習性能について検討する。
本稿では,ウェーブレット分解を統合したハイブリッド機械学習モデルを提案する。
論文 参考訳(メタデータ) (2022-05-09T14:34:42Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。