論文の概要: A Geometric View of Data Complexity: Efficient Local Intrinsic Dimension Estimation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.03537v2
- Date: Thu, 24 Oct 2024 18:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:35:39.436277
- Title: A Geometric View of Data Complexity: Efficient Local Intrinsic Dimension Estimation with Diffusion Models
- Title(参考訳): データ複雑度の幾何学的視点:拡散モデルを用いた効率的な局所固有次元推定
- Authors: Hamidreza Kamkari, Brendan Leigh Ross, Rasa Hosseinzadeh, Jesse C. Cresswell, Gabriel Loaiza-Ganem,
- Abstract要約: 低次元部分多様体の局所次元内在(LID)を推定することは長年の問題である。
本研究では,拡散モデルに付随するFokker-Planck方程式がLID推定器となることを示す。
FLIPDを合成LID推定ベンチマークに適用すると、完全に接続されたネットワークとして実装されたDMは、非常に効果的なLID推定器であることが分かる。
- 参考スコア(独自算出の注目度): 12.636148533844882
- License:
- Abstract: High-dimensional data commonly lies on low-dimensional submanifolds, and estimating the local intrinsic dimension (LID) of a datum -- i.e. the dimension of the submanifold it belongs to -- is a longstanding problem. LID can be understood as the number of local factors of variation: the more factors of variation a datum has, the more complex it tends to be. Estimating this quantity has proven useful in contexts ranging from generalization in neural networks to detection of out-of-distribution data, adversarial examples, and AI-generated text. The recent successes of deep generative models present an opportunity to leverage them for LID estimation, but current methods based on generative models produce inaccurate estimates, require more than a single pre-trained model, are computationally intensive, or do not exploit the best available deep generative models: diffusion models (DMs). In this work, we show that the Fokker-Planck equation associated with a DM can provide an LID estimator which addresses the aforementioned deficiencies. Our estimator, called FLIPD, is easy to implement and compatible with all popular DMs. Applying FLIPD to synthetic LID estimation benchmarks, we find that DMs implemented as fully-connected networks are highly effective LID estimators that outperform existing baselines. We also apply FLIPD to natural images where the true LID is unknown. Despite being sensitive to the choice of network architecture, FLIPD estimates remain a useful measure of relative complexity; compared to competing estimators, FLIPD exhibits a consistently higher correlation with image PNG compression rate and better aligns with qualitative assessments of complexity. Notably, FLIPD is orders of magnitude faster than other LID estimators, and the first to be tractable at the scale of Stable Diffusion.
- Abstract(参考訳): 高次元データは一般に低次元部分多様体の上にあり、ダトゥムの局所内在次元(LID)を推定する(つまり、それが属する部分多様体の次元)ことは長年の問題である。
LIDは、変化の局所的な要因の数として理解することができる: ダタムの変動の要因が多ければ多いほど、それがより複雑になる傾向がある。
この量の推定は、ニューラルネットワークの一般化からアウト・オブ・ディストリビューションデータの検出、敵例、AI生成テキストに至るまで、コンテキストにおいて有用であることが証明されている。
近年の深層生成モデルの成功は、それらをLID推定に活用する機会を与えるが、生成モデルに基づく現在の手法は、不正確な見積もりを生成し、単一の事前学習モデル以上のものを必要とし、計算集約的であり、あるいは最も有効な深部生成モデルである拡散モデル(DM)を利用できない。
本研究では, DMに付随するFokker-Planck方程式が, 上記の欠陥に対処するLID推定器を提供することを示す。
FLIPDと呼ばれる我々の推定器は、実装が容易で、すべての一般的なDMと互換性がある。
FLIPDを合成LID推定ベンチマークに適用すると、完全に接続されたネットワークとして実装されたDMは、既存のベースラインを上回り、非常に効果的なLID推定器であることが分かる。
また,実LIDが不明な自然画像にもFLIPDを適用した。
ネットワークアーキテクチャの選択に敏感であるにもかかわらず、FLIPD推定は、競合する推定器と比較して、画像PNG圧縮率と一定の高い相関を示し、複雑さの質的評価との整合性が向上している。
特に、FLIPDは他のLID推定器よりも桁違いに速く、安定拡散のスケールで引くことができる。
関連論文リスト
- Can AI be enabled to dynamical downscaling? A Latent Diffusion Model to mimic km-scale COSMO5.0\_CLM9 simulations [0.0]
ダウンスケーリング技術は、地球システムモデリングにおけるディープラーニング(DL)の最も顕著な応用の1つである。
本研究では,イタリア上空のERA5データを2kmまでダウンスケールするために,LDM(Latent Diffusion Model)を適用した。
我々のゴールは、最近の生成モデリングの進歩により、DLが数値力学モデルに匹敵する結果をもたらすことを実証することである。
論文 参考訳(メタデータ) (2024-06-19T15:20:28Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Proximal Symmetric Non-negative Latent Factor Analysis: A Novel Approach
to Highly-Accurate Representation of Undirected Weighted Networks [2.1797442801107056]
Undirected Weighted Network (UWN) は、ビッグデータ関連のアプリケーションで一般的に見られる。
既存のモデルは本質対称性や低データ密度のモデル化に失敗する。
近軸対称非負の潜在因子分析モデルを提案する。
論文 参考訳(メタデータ) (2023-06-06T13:03:24Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Fast Latent Factor Analysis via a Fuzzy PID-Incorporated Stochastic
Gradient Descent Algorithm [1.984879854062214]
勾配降下(SGD)に基づく潜在因子分析モデルは,HDI行列から貴重な情報を抽出するのに極めて有効である。
標準SGDアルゴリズムは、過去の更新情報を考慮せずに、現在のインスタンスエラーの勾配に依存する潜在因子を学習する。
本稿では, ファジィPIDを組み込んだSGDアルゴリズムを2つのアイデアで提案する: 1) 過去の更新情報をPIDの原則に従って効率的な方法で再設計し, 2) ハイパーラーニングを実装し, ファジィ規則に従う適応を得る。
論文 参考訳(メタデータ) (2023-03-07T14:51:09Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Smooth densities and generative modeling with unsupervised random
forests [1.433758865948252]
密度推定器の重要な応用は合成データ生成である。
パラメータ制約を伴わない任意の次元における滑らかな密度を推定するための,教師なしランダム森林に基づく新しい手法を提案する。
提案手法の整合性を証明し,既存の木質密度推定器に対する利点を実証する。
論文 参考訳(メタデータ) (2022-05-19T09:50:25Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Unsupervised Domain Adaptation in the Dissimilarity Space for Person
Re-identification [11.045405206338486]
そこで本稿では,ペア距離の整合性を実現するために,D-MMD(Dissimilarity-based Maximum Mean Discrepancy)の新たな損失を提案する。
3つの挑戦的なベンチマークデータセットによる実験結果から、D-MMDの損失は、ソースとドメインの分布がよりよくなるにつれて減少することが示された。
論文 参考訳(メタデータ) (2020-07-27T22:10:46Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。