論文の概要: A Geometric View of Data Complexity: Efficient Local Intrinsic Dimension Estimation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.03537v1
- Date: Wed, 5 Jun 2024 18:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 19:24:39.160442
- Title: A Geometric View of Data Complexity: Efficient Local Intrinsic Dimension Estimation with Diffusion Models
- Title(参考訳): データ複雑度の幾何学的視点:拡散モデルを用いた効率的な局所固有次元推定
- Authors: Hamidreza Kamkari, Brendan Leigh Ross, Rasa Hosseinzadeh, Jesse C. Cresswell, Gabriel Loaiza-Ganem,
- Abstract要約: 部分多様体の局所内在次元を推定することは長年の問題である。
拡散モデルに付随するフォッカー・プランク方程式は、LID推定器を提供することができる。
我々の推定器はFLIPDと呼ばれ、すべての一般的なDMと互換性があり、LID推定ベンチマークで既存のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 12.636148533844882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-dimensional data commonly lies on low-dimensional submanifolds, and estimating the local intrinsic dimension (LID) of a datum -- i.e. the dimension of the submanifold it belongs to -- is a longstanding problem. LID can be understood as the number of local factors of variation: the more factors of variation a datum has, the more complex it tends to be. Estimating this quantity has proven useful in contexts ranging from generalization in neural networks to detection of out-of-distribution data, adversarial examples, and AI-generated text. The recent successes of deep generative models present an opportunity to leverage them for LID estimation, but current methods based on generative models produce inaccurate estimates, require more than a single pre-trained model, are computationally intensive, or do not exploit the best available deep generative models, i.e. diffusion models (DMs). In this work, we show that the Fokker-Planck equation associated with a DM can provide a LID estimator which addresses all the aforementioned deficiencies. Our estimator, called FLIPD, is compatible with all popular DMs, and outperforms existing baselines on LID estimation benchmarks. We also apply FLIPD on natural images where the true LID is unknown. Compared to competing estimators, FLIPD exhibits a higher correlation with non-LID measures of complexity, better matches a qualitative assessment of complexity, and is the only estimator to remain tractable with high-resolution images at the scale of Stable Diffusion.
- Abstract(参考訳): 高次元データは一般に低次元部分多様体の上にあり、ダトゥムの局所内在次元(LID)を推定する(つまり、それが属する部分多様体の次元)ことは長年の問題である。
LIDは、変化の局所的な要因の数として理解することができる: ダタムの変動の要因が多ければ多いほど、それがより複雑になる傾向がある。
この量の推定は、ニューラルネットワークの一般化からアウト・オブ・ディストリビューションデータの検出、敵例、AI生成テキストに至るまで、コンテキストにおいて有用であることが証明されている。
近年の深層生成モデルの成功は、それらをLID推定に活用する機会を与えるが、生成モデルに基づく現在の手法は、不正確な見積もりを生成し、単一の事前学習モデル以上のものを必要とし、計算集約的であり、あるいは最良の深部生成モデル、すなわち拡散モデル(DM)を利用できない。
本研究では, DMに付随するFokker-Planck方程式が, 上記すべての欠陥に対処するLID推定器を提供することを示す。
我々の推定器はFLIPDと呼ばれ、すべての一般的なDMと互換性があり、LID推定ベンチマークで既存のベースラインを上回っている。
また,実LIDが不明な自然画像にもFLIPDを適用した。
競合推定器と比較して、FLIPDは複雑性の非LID測度と高い相関を示し、複雑性の質的な評価とよく一致し、安定拡散のスケールで高解像度の画像を抽出可能な唯一の推定器である。
関連論文リスト
- Can AI be enabled to dynamical downscaling? A Latent Diffusion Model to mimic km-scale COSMO5.0\_CLM9 simulations [0.0]
ダウンスケーリング技術は、地球システムモデリングにおけるディープラーニング(DL)の最も顕著な応用の1つである。
本研究では,イタリア上空のERA5データを2kmまでダウンスケールするために,LDM(Latent Diffusion Model)を適用した。
我々のゴールは、最近の生成モデリングの進歩により、DLが数値力学モデルに匹敵する結果をもたらすことを実証することである。
論文 参考訳(メタデータ) (2024-06-19T15:20:28Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Proximal Symmetric Non-negative Latent Factor Analysis: A Novel Approach
to Highly-Accurate Representation of Undirected Weighted Networks [2.1797442801107056]
Undirected Weighted Network (UWN) は、ビッグデータ関連のアプリケーションで一般的に見られる。
既存のモデルは本質対称性や低データ密度のモデル化に失敗する。
近軸対称非負の潜在因子分析モデルを提案する。
論文 参考訳(メタデータ) (2023-06-06T13:03:24Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Fast Latent Factor Analysis via a Fuzzy PID-Incorporated Stochastic
Gradient Descent Algorithm [1.984879854062214]
勾配降下(SGD)に基づく潜在因子分析モデルは,HDI行列から貴重な情報を抽出するのに極めて有効である。
標準SGDアルゴリズムは、過去の更新情報を考慮せずに、現在のインスタンスエラーの勾配に依存する潜在因子を学習する。
本稿では, ファジィPIDを組み込んだSGDアルゴリズムを2つのアイデアで提案する: 1) 過去の更新情報をPIDの原則に従って効率的な方法で再設計し, 2) ハイパーラーニングを実装し, ファジィ規則に従う適応を得る。
論文 参考訳(メタデータ) (2023-03-07T14:51:09Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Smooth densities and generative modeling with unsupervised random
forests [1.433758865948252]
密度推定器の重要な応用は合成データ生成である。
パラメータ制約を伴わない任意の次元における滑らかな密度を推定するための,教師なしランダム森林に基づく新しい手法を提案する。
提案手法の整合性を証明し,既存の木質密度推定器に対する利点を実証する。
論文 参考訳(メタデータ) (2022-05-19T09:50:25Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Unsupervised Domain Adaptation in the Dissimilarity Space for Person
Re-identification [11.045405206338486]
そこで本稿では,ペア距離の整合性を実現するために,D-MMD(Dissimilarity-based Maximum Mean Discrepancy)の新たな損失を提案する。
3つの挑戦的なベンチマークデータセットによる実験結果から、D-MMDの損失は、ソースとドメインの分布がよりよくなるにつれて減少することが示された。
論文 参考訳(メタデータ) (2020-07-27T22:10:46Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。