論文の概要: Generative Data Mining with Longtail-Guided Diffusion
- arxiv url: http://arxiv.org/abs/2502.01980v1
- Date: Tue, 04 Feb 2025 03:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:46.235899
- Title: Generative Data Mining with Longtail-Guided Diffusion
- Title(参考訳): 長距離誘導拡散を用いた生成データマイニング
- Authors: David S. Hayden, Mao Ye, Timur Garipov, Gregory P. Meyer, Carl Vondrick, Zhao Chen, Yuning Chai, Eric Wolff, Siddhartha S. Srinivasa,
- Abstract要約: トレーニング中に追加データを想像することで,プロアクティブなロングテール発見プロセスを開発する。
我々はこれらの信号をガイダンスとして利用し、潜在拡散モデルから追加のトレーニングデータを生成する。
LTGが生成したデータは意味論的に意味のある変化を示し、画像分類のベンチマークで大幅に一般化された。
- 参考スコア(独自算出の注目度): 39.460272573196896
- License:
- Abstract: It is difficult to anticipate the myriad challenges that a predictive model will encounter once deployed. Common practice entails a reactive, cyclical approach: model deployment, data mining, and retraining. We instead develop a proactive longtail discovery process by imagining additional data during training. In particular, we develop general model-based longtail signals, including a differentiable, single forward pass formulation of epistemic uncertainty that does not impact model parameters or predictive performance but can flag rare or hard inputs. We leverage these signals as guidance to generate additional training data from a latent diffusion model in a process we call Longtail Guidance (LTG). Crucially, we can perform LTG without retraining the diffusion model or the predictive model, and we do not need to expose the predictive model to intermediate diffusion states. Data generated by LTG exhibit semantically meaningful variation, yield significant generalization improvements on image classification benchmarks, and can be analyzed to proactively discover, explain, and address conceptual gaps in a predictive model.
- Abstract(参考訳): 予測モデルが一度デプロイされると直面する、無数の課題を予想することは難しい。
一般的なプラクティスには、モデルデプロイメント、データマイニング、再トレーニングといった、リアクティブで循環的なアプローチが必要です。
代わりに、トレーニング中に追加データを想像して、プロアクティブなロングテール発見プロセスを開発する。
特に, モデルパラメータや予測性能に影響を与えないが, 稀な入力やハード入力にフラグを付けることが可能な, 相違可能な単一前方通過不確実性の定式化を含む, 一般的なモデルベースロングテール信号を開発する。
我々はこれらの信号をガイダンスとして利用し、Longtail Guidance (LTG) と呼ばれるプロセスにおいて、潜在拡散モデルから追加のトレーニングデータを生成する。
重要なことは、拡散モデルや予測モデルを再訓練することなくLTGを実行することができ、中間拡散状態に予測モデルを公開する必要はない。
LTGが生成したデータは意味論的に意味のある変化を示し、画像分類ベンチマークにおいて大幅な一般化の改善をもたらし、予測モデルにおける概念的ギャップを積極的に発見、説明、解決するために分析することができる。
関連論文リスト
- Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
これらの課題に対処するための影響関数フレームワークを開発する。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Sub-graph Based Diffusion Model for Link Prediction [43.15741675617231]
拡散確率モデル(Denoising Diffusion Probabilistic Models, DDPM)は、例外的な品質を持つ同時代の生成モデルである。
本研究では,ベイズ式による確率推定過程を分解するために,専用設計を用いたリンク予測のための新しい生成モデルを構築した。
提案手法は,(1)再トレーニングを伴わないデータセット間の転送可能性,(2)限られたトレーニングデータに対する有望な一般化,(3)グラフ敵攻撃に対する堅牢性など,多くの利点を示す。
論文 参考訳(メタデータ) (2024-09-13T02:23:55Z) - MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided Learning Process [26.661721555671626]
本稿では,最先端の予測性能を実現する新しい多粒度時系列(MG-TSD)モデルを提案する。
われわれのアプローチは外部データに頼らず、様々な領域にまたがって汎用的で適用可能である。
論文 参考訳(メタデータ) (2024-03-09T01:15:03Z) - Orthogonal Uncertainty Representation of Data Manifold for Robust
Long-Tailed Learning [52.021899899683675]
長い尾の分布を持つシナリオでは、尾のサンプルが不足しているため、モデルが尾のクラスを識別する能力は制限される。
モデルロバストネスの長期的現象を改善するために,特徴埋め込みの直交不確実性表現(OUR)とエンドツーエンドのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-16T05:50:34Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Deep Generative Modeling on Limited Data with Regularization by
Nontransferable Pre-trained Models [32.52492468276371]
本稿では,限られたデータを用いた生成モデルの分散を低減するために,正規化深層生成モデル(Reg-DGM)を提案する。
Reg-DGMは、ある発散の重み付け和とエネルギー関数の期待を最適化するために、事前訓練されたモデルを使用する。
実験的に、様々な事前訓練された特徴抽出器とデータ依存エネルギー関数により、Reg-DGMはデータ制限のある強力なDGMの生成性能を一貫して改善する。
論文 参考訳(メタデータ) (2022-08-30T10:28:50Z) - HYPER: Learned Hybrid Trajectory Prediction via Factored Inference and
Adaptive Sampling [27.194900145235007]
本稿では,汎用的で表現力豊かなハイブリッド予測フレームワークHYPERを紹介する。
トラヒックエージェントをハイブリッドな離散連続システムとしてモデル化することにより、我々のアプローチは時間とともに離散的な意図の変化を予測することができる。
我々は、Argoverseデータセット上でモデルをトレーニングし、検証し、その効果を包括的アブレーション研究と最先端モデルとの比較を通して実証する。
論文 参考訳(メタデータ) (2021-10-05T20:20:10Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。