論文の概要: Deep Generative Sampling in the Dual Divergence Space: A Data-efficient & Interpretative Approach for Generative AI
- arxiv url: http://arxiv.org/abs/2404.07377v1
- Date: Wed, 10 Apr 2024 22:35:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 15:28:21.717809
- Title: Deep Generative Sampling in the Dual Divergence Space: A Data-efficient & Interpretative Approach for Generative AI
- Title(参考訳): デュアルディバージェンス空間における深層生成サンプリング:生成AIのためのデータ効率と解釈的アプローチ
- Authors: Sahil Garg, Anderson Schneider, Anant Raj, Kashif Rasul, Yuriy Nevmyvaka, Sneihil Gopal, Amit Dhurandhar, Guillermo Cecchi, Irina Rish,
- Abstract要約: 自然画像の生成的サンプリングにおける顕著な成果の上に構築する。
我々は、画像に似たサンプルを生成するという、画期的な挑戦を、潜在的に過度に野心的に提案する。
統計上の課題は、小さなサンプルサイズであり、時には数百人の被験者で構成されている。
- 参考スコア(独自算出の注目度): 29.13807697733638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building on the remarkable achievements in generative sampling of natural images, we propose an innovative challenge, potentially overly ambitious, which involves generating samples of entire multivariate time series that resemble images. However, the statistical challenge lies in the small sample size, sometimes consisting of a few hundred subjects. This issue is especially problematic for deep generative models that follow the conventional approach of generating samples from a canonical distribution and then decoding or denoising them to match the true data distribution. In contrast, our method is grounded in information theory and aims to implicitly characterize the distribution of images, particularly the (global and local) dependency structure between pixels. We achieve this by empirically estimating its KL-divergence in the dual form with respect to the respective marginal distribution. This enables us to perform generative sampling directly in the optimized 1-D dual divergence space. Specifically, in the dual space, training samples representing the data distribution are embedded in the form of various clusters between two end points. In theory, any sample embedded between those two end points is in-distribution w.r.t. the data distribution. Our key idea for generating novel samples of images is to interpolate between the clusters via a walk as per gradients of the dual function w.r.t. the data dimensions. In addition to the data efficiency gained from direct sampling, we propose an algorithm that offers a significant reduction in sample complexity for estimating the divergence of the data distribution with respect to the marginal distribution. We provide strong theoretical guarantees along with an extensive empirical evaluation using many real-world datasets from diverse domains, establishing the superiority of our approach w.r.t. state-of-the-art deep learning methods.
- Abstract(参考訳): 自然画像の生成的サンプリングにおいて顕著な成果を生かし、画像に似た多変量時系列全体のサンプルを生成するという、画期的な挑戦を、潜在的に過度に野心的に提案する。
しかし、統計上の課題は小さなサンプルサイズであり、時には数百人の被験者で構成されている。
この問題は、標準分布からサンプルを生成し、真のデータ分布と一致するようにデコードまたはデノケーションする従来のアプローチに従う深層生成モデルに特に問題となる。
対照的に,本手法は情報理論に根ざし,画像の分布,特に画素間の(グローバルかつ局所的な)依存性構造を暗黙的に特徴付けることを目的としている。
我々は、それぞれの辺分布に関して、そのKL偏差を双対形式で経験的に推定することでこれを達成した。
これにより、最適化された1次元双対発散空間で生成的サンプリングを行うことができる。
具体的には、双対空間において、データ分布を表すトレーニングサンプルを2つの終点間の様々なクラスタの形で埋め込む。
理論的には、これらの2つの終点の間に埋め込まれたサンプルは、データ分布の内分布である。
画像の新たなサンプルを生成するための鍵となるアイデアは、データ次元の双対関数の勾配に従って、ウォークを介してクラスタ間を補間することである。
直接サンプリングから得られるデータ効率に加えて,サンプルの複雑さを著しく低減し,データ分布の分散を限界分布に対して推定するアルゴリズムを提案する。
我々は、様々な領域の現実世界のデータセットを用いた広範な経験的評価とともに、強力な理論的保証を提供し、最先端のディープラーニング手法によるアプローチの優位性を確立する。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Score Neural Operator: A Generative Model for Learning and Generalizing Across Multiple Probability Distributions [7.851040662069365]
我々は,複数の確率分布からスコア関数へのマッピングを統一されたフレームワーク内で学習する,$emphScore Neural Operatorを紹介した。
提案手法は,新しい分布からの1つのイメージを利用すれば,その分布から複数の異なる画像を生成することができる。
論文 参考訳(メタデータ) (2024-10-11T06:00:34Z) - Improving Distribution Alignment with Diversity-based Sampling [0.0]
ドメインシフトは機械学習においてユビキタスであり、実際のデータにデプロイすると、モデルのパフォーマンスが大幅に低下する可能性がある。
本稿では,各サンプル小バッチの多様性を誘導することにより,これらの推定値を改善することを提案する。
同時にデータのバランスを保ち、勾配のばらつきを低減し、それによってモデルの一般化能力を高める。
論文 参考訳(メタデータ) (2024-10-05T17:26:03Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Controlling the Fidelity and Diversity of Deep Generative Models via Pseudo Density [70.14884528360199]
本稿では, GAN や拡散モデルなどのバイアス深層生成モデルへのアプローチを導入し, 忠実度の向上や多様性の向上を図ったデータ生成手法を提案する。
提案手法では, 擬似密度という, 個人サンプルの新たな測定基準を用いて, トレーニングとデータ生成の分布を操作する。
論文 参考訳(メタデータ) (2024-07-11T16:46:04Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Statistically Optimal Generative Modeling with Maximum Deviation from the Empirical Distribution [2.1146241717926664]
本稿では, 左非可逆なプッシュフォワード写像に制約されたワッサーシュタインGANが, 複製を回避し, 経験的分布から著しく逸脱する分布を生成することを示す。
我々の最も重要な寄与は、生成分布と経験的分布の間のワッサーシュタイン-1距離の有限サンプル下界を与える。
また、生成分布と真のデータ生成との距離に有限サンプル上限を確立する。
論文 参考訳(メタデータ) (2023-07-31T06:11:57Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Structured Uncertainty in the Observation Space of Variational
Autoencoders [20.709989481734794]
画像合成において、そのような分布からのサンプリングは、非相関な画素ノイズを伴う空間的非コヒーレントな結果を生成する。
低ランクパラメータ化により空間依存性を符号化する観測空間の代替モデルを提案する。
画素単位の独立分布とは対照的に,本サンプルは複数の可算出力の予測を可能にする平均値から意味論的に有意な変動を含むと考えられる。
論文 参考訳(メタデータ) (2022-05-25T07:12:50Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Adversarial Manifold Matching via Deep Metric Learning for Generative
Modeling [5.5840609705075055]
本稿では,分布生成器と距離生成器を含む生成モデルに対する多様体マッチング手法を提案する。
分布生成器は、実データ多様体の周りに凝縮された分布に従うサンプルを生成することを目的としている。
距離計生成器は、実データと生成されたサンプルの両方を利用して距離計を学習する。
論文 参考訳(メタデータ) (2021-06-20T23:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。