Fugu-MT 論文翻訳(概要): Intriguing Properties of Data Attribution on Diffusion Models

論文の概要: Intriguing Properties of Data Attribution on Diffusion Models

arxiv url: http://arxiv.org/abs/2311.00500v2
Date: Fri, 15 Mar 2024 12:05:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 23:41:48.541255
Title: Intriguing Properties of Data Attribution on Diffusion Models
Title（参考訳）: 拡散モデルにおけるデータ属性の導出特性
Authors: Xiaosen Zheng, Tianyu Pang, Chao Du, Jing Jiang, Min Lin,
Abstract要約: データ帰属は、望ましいアウトプットをトレーニングデータに戻そうとする。データ属性は、高直感的または著作権のあるデータを適切に割り当てるためのモジュールになっている。
参考スコア（独自算出の注目度）: 33.77847454043439
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data attribution seeks to trace model outputs back to training data. With the recent development of diffusion models, data attribution has become a desired module to properly assign valuations for high-quality or copyrighted training samples, ensuring that data contributors are fairly compensated or credited. Several theoretically motivated methods have been proposed to implement data attribution, in an effort to improve the trade-off between computational scalability and effectiveness. In this work, we conduct extensive experiments and ablation studies on attributing diffusion models, specifically focusing on DDPMs trained on CIFAR-10 and CelebA, as well as a Stable Diffusion model LoRA-finetuned on ArtBench. Intriguingly, we report counter-intuitive observations that theoretically unjustified design choices for attribution empirically outperform previous baselines by a large margin, in terms of both linear datamodeling score and counterfactual evaluation. Our work presents a significantly more efficient approach for attributing diffusion models, while the unexpected findings suggest that at least in non-convex settings, constructions guided by theoretical assumptions may lead to inferior attribution performance. The code is available at https://github.com/sail-sg/D-TRAK.
Abstract（参考訳）: データ属性は、モデルの出力をトレーニングデータに戻そうとする。近年の拡散モデルの発展により、データ属性は、高品質なトレーニングサンプルや著作権のあるトレーニングサンプルのバリュエーションを適切に割り当て、データコントリビュータが相当に補償されたり、認定されたりする上で、望ましいモジュールになっている。計算スケーラビリティと有効性の間のトレードオフを改善するために、データ属性を実装するための理論的動機付け手法がいくつか提案されている。本研究は,CIFAR-10およびCelebAで訓練されたDDPMとArtBenchで作製された安定拡散モデルLoRAに焦点を当て,帰属拡散モデルに関する広範囲な実験およびアブレーション研究を行う。興味深いことに、線形データモデリングスコアと反事実評価の両方の観点から、帰属のための設計選択が、経験的に以前のベースラインよりも大きなマージンで上回っているという、理論的に不適切な反直観的な観察を報告する。その結果,少なくとも非凸条件下では,理論的な仮定によって導かれる構造が,導出性能の低下につながる可能性が示唆された。コードはhttps://github.com/sail-sg/D-TRAK.comで公開されている。

関連論文リスト

Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
Diffusion Beats Autoregressive in Data-Constrained Settings [50.56893491038853]
自己回帰(AR)モデルは長い間、大きな言語モデルのランドスケープを支配してきた。近年,ARモデルよりもアドバンテージが低いものの,拡散型言語モデルが将来性のある選択肢として浮上している。本研究では,限られたデータ上で繰り返し学習を行うデータ制約付き環境で,マスク拡散モデルについて系統的に研究する。我々の結果は、データが計算ではなくボトルネックである場合、拡散モデルは標準的なARパラダイムに代わる魅力的な代替手段となることを示唆している。
論文参考訳（メタデータ） (2025-07-21T17:59:57Z)
Distributional Training Data Attribution: What do Influence Functions Sample? [25.257922996567178]
分散学習データ属性(d-TDA)を導入する。 d-TDAの目標は、モデル出力の分布がデータセットに依存するかを予測することである。影響関数 (IF) は「秘密分布」である。
論文参考訳（メタデータ） (2025-06-15T21:02:36Z)
Daunce: Data Attribution through Uncertainty Estimation [7.809316632545256]
トレーニングデータ属性法は、特定のテストデータに対して、どのトレーニング例がモデルの予測に最も影響するかを特定することを目的としている。勾配に基づくTDA法は勾配と2次情報に依存し、大規模に適用性を制限する。本稿では,不確実性推定による簡便かつ効果的なデータ帰属手法であるDaunceを紹介する。
論文参考訳（メタデータ） (2025-05-29T08:08:38Z)
Federated Learning for Diffusion Models [12.46092849473786]
拡散モデルは、様々なタスクに対して非常に現実的なサンプルを生成することができる強力な生成モデルである。拡散確率モデルを用いたFedDDPM-Federated Learningを提案する。本稿では、FedDDPMの厳密な収束解析を行い、トレーニングオーバーヘッドを低減するための強化アルゴリズムであるFedDDPM+を提案する。
論文参考訳（メタデータ） (2025-03-09T03:41:10Z)
Improved Diffusion-based Generative Model with Better Adversarial Robustness [65.38540020916432]
拡散確率モデル(DPM)は、生成タスクにおいて大きな成功を収めた。デノナイジングプロセスでは、入力データ分布はトレーニングと推論の段階によって異なる。
論文参考訳（メタデータ） (2025-02-24T12:29:16Z)
Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion Model [22.39558434131574]
拡散モデルに対する既存のデータ帰属法は、典型的にはトレーニングサンプルの寄与を定量化する。拡散損失の直接的利用は,拡散損失の計算により,そのような貢献を正確に表すことはできない。本研究の目的は, 予測分布と属性スコアとの直接比較を計測し, トレーニングサンプルの重要性を分析することである。
論文参考訳（メタデータ） (2024-10-24T10:58:17Z)
Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文参考訳（メタデータ） (2024-10-17T17:59:02Z)
Towards a Theoretical Understanding of Memorization in Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
論文参考訳（メタデータ） (2024-10-03T13:17:06Z)
Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models [33.09663675904689]
データセットプルーニングの観点から,効率的な拡散訓練について検討する。 GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まず、GANで使用されるデータ選択スキームをDMトレーニングに拡張する。生成性能をさらに向上するため,クラスワイド・リウェイト方式を採用する。
論文参考訳（メタデータ） (2024-09-27T20:21:19Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
An Efficient Framework for Crediting Data Contributors of Diffusion Models [13.761241561734547]
本稿では,Shapley値推定のための推論を効率的に再学習し,再実行する手法を提案する。 CIFARデータセットで訓練されたDDPMの画像品質,CelebA-HQで訓練されたLCMの人口統計学的多様性,そして, (iii) 印象主義後のアートワークで修正された安定拡散モデルLoRAの審美的品質,の3つのユースケースで本手法の有用性を評価した。
論文参考訳（メタデータ） (2024-06-09T17:42:09Z)
Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文参考訳（メタデータ） (2024-01-17T07:58:18Z)
MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文参考訳（メタデータ） (2023-07-02T03:49:47Z)
Score Approximation, Estimation and Distribution Recovery of Diffusion Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文参考訳（メタデータ） (2023-02-14T17:02:35Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)
How to Learn when Data Gradually Reacts to Your Model [10.074466859579571]
我々は,これらの効果が存在する場合でも,性能損失を最小限に抑えるための新しいアルゴリズム Stateful Performative Gradient Descent (Stateful PerfGD) を提案する。実験の結果, Stateful PerfGD は従来の最先端手法よりもかなり優れていたことが確認された。
論文参考訳（メタデータ） (2021-12-13T22:05:26Z)
The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning [25.85044477227461]
このベースラインに対するアウト・オブ・ディストリビューションデータより正確であるモデルは「有効ロバスト性」を示す。より大規模なデータセットで事前トレーニングされたモデルは、収束時に消滅するトレーニング中に効果的な堅牢性を示す。本稿では, 最先端システムに効率的なロバスト性を拡張し, 最先端モデルの分布外精度を向上させるためのいくつかの戦略について論じる。
論文参考訳（メタデータ） (2021-06-30T06:21:42Z)
Mind the Trade-off: Debiasing NLU Models without Degrading the In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文参考訳（メタデータ） (2020-05-01T11:22:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。