論文の概要: Data-Dependent Smoothing for Protein Discovery with Walk-Jump Sampling
- arxiv url: http://arxiv.org/abs/2509.02069v1
- Date: Tue, 02 Sep 2025 08:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.95512
- Title: Data-Dependent Smoothing for Protein Discovery with Walk-Jump Sampling
- Title(参考訳): ウォークジャンプサンプリングによるタンパク質発見のためのデータ依存型平滑化
- Authors: Srinivas Anumasa, Barath Chandran. C, Tingting Chen, Dianbo Liu,
- Abstract要約: 拡散モデルは、ノイズ発生過程を反復的に逆転することを学ぶことによって、生成モデルの強力なクラスとして現れてきた。
高品質なサンプルを生成する能力は、高次元画像データを超えてタンパク質のような他の複雑なドメインにまで拡張されている。
本稿では,カーネル密度推定(KDE)を前処理ステップとして利用して,各データポイントに対するノイズスケール$sigma$を推定する,データ依存スムーシングウォーク・ジャンプフレームワークを提案する。
局所的なデータ幾何をデノナイズプロセスに組み込むことで,タンパク質データの均一分布を考慮に入れた。
- 参考スコア(独自算出の注目度): 7.278972126771497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have emerged as a powerful class of generative models by learning to iteratively reverse the noising process. Their ability to generate high-quality samples has extended beyond high-dimensional image data to other complex domains such as proteins, where data distributions are typically sparse and unevenly spread. Importantly, the sparsity itself is uneven. Empirically, we observed that while a small fraction of samples lie in dense clusters, the majority occupy regions of varying sparsity across the data space. Existing approaches largely ignore this data-dependent variability. In this work, we introduce a Data-Dependent Smoothing Walk-Jump framework that employs kernel density estimation (KDE) as a preprocessing step to estimate the noise scale $\sigma$ for each data point, followed by training a score model with these data-dependent $\sigma$ values. By incorporating local data geometry into the denoising process, our method accounts for the heterogeneous distribution of protein data. Empirical evaluations demonstrate that our approach yields consistent improvements across multiple metrics, highlighting the importance of data-aware sigma prediction for generative modeling in sparse, high-dimensional settings.
- Abstract(参考訳): 拡散モデルは、ノイズ発生過程を反復的に逆転することを学ぶことによって、生成モデルの強力なクラスとして現れてきた。
高品質なサンプルを生成する能力は、高次元の画像データを超えて、タンパク質のような他の複雑なドメインにも及んでいる。
重要なのは、空間そのものが不均一であることだ。
実験によって、サンプルのごく一部が密度の高いクラスタにあるのに対して、大多数はデータ空間の様々な空間の領域を占有していることがわかった。
既存のアプローチは、このデータ依存の変動性を無視している。
本研究では,各データポイントに対するノイズスケール$\sigma$を推定する前処理ステップとしてカーネル密度推定(KDE)を利用するData-Dependent Smoothing Walk-Jumpフレームワークを導入し,これらのデータ依存の$\sigma$値を用いてスコアモデルをトレーニングする。
局所的なデータ幾何をデノナイズプロセスに組み込むことで,タンパク質データの均一分布を考慮に入れた。
実験的な評価により,本手法は複数の指標間で一貫した改善をもたらすことが示され,疎密な高次元環境における生成モデリングにおけるデータ認識シグマ予測の重要性が強調された。
関連論文リスト
- Multimodal Atmospheric Super-Resolution With Deep Generative Models [0.0]
スコアベース拡散モデリング(Score-based diffusion modeling)は、複雑な分布からサンプリングできる生成機械学習アルゴリズムである。
本稿では,高次元力学系の超解像にそのような概念を適用し,低分解能および実験的に観察されたスパースセンサ測定のリアルタイム利用性を考える。
論文 参考訳(メタデータ) (2025-06-28T06:47:09Z) - Convergence Of Consistency Model With Multistep Sampling Under General Data Assumptions [11.317363635566517]
自己整合性特性がトレーニング分布のほぼ下にある場合の整合性モデルの収束性について検討する。
私たちの分析では、軽度のデータ仮定しか必要とせず、フォワードプロセスのファミリーに適用される。
論文 参考訳(メタデータ) (2025-05-06T05:31:10Z) - Resolving Memorization in Empirical Diffusion Model for Manifold Data in High-Dimensional Spaces [5.716752583983991]
データ分布がn個の点からなる場合、経験的拡散モデルは既存のデータ点を再現する傾向がある。
本研究は,経験的拡散シミュレーションの最後に慣性更新を適用することで,記憶の問題を解くことができることを示す。
このモデルから得られたサンプルの分布は、次元$d$の$C2$多様体上の真のデータ分布を、位数$O(n-frac2d+4)$のWasserstein-1距離内で近似することを示した。
論文 参考訳(メタデータ) (2025-05-05T09:40:41Z) - Generative diffusion model with inverse renormalization group flows [0.0]
拡散モデルは、ホワイトノイズによって破損したサンプルをデノナイズすることでデータを生成する。
本稿では,データ分散のマルチスケールな性質を利用する正規化群に基づく拡散モデルを提案する。
タンパク質構造予測および画像生成への応用を通じて,モデルの汎用性を検証する。
論文 参考訳(メタデータ) (2025-01-15T19:00:01Z) - Deep Generative Sampling in the Dual Divergence Space: A Data-efficient & Interpretative Approach for Generative AI [29.13807697733638]
自然画像の生成的サンプリングにおける顕著な成果の上に構築する。
我々は、画像に似たサンプルを生成するという、画期的な挑戦を、潜在的に過度に野心的に提案する。
統計上の課題は、小さなサンプルサイズであり、時には数百人の被験者で構成されている。
論文 参考訳(メタデータ) (2024-04-10T22:35:06Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Score-based Diffusion Models in Function Space [137.70916238028306]
拡散モデルは、最近、生成モデリングの強力なフレームワークとして登場した。
この研究は、関数空間における拡散モデルをトレーニングするためのDDO(Denoising Diffusion Operators)と呼ばれる数学的に厳密なフレームワークを導入する。
データ解像度に依存しない固定コストで、対応する離散化アルゴリズムが正確なサンプルを生成することを示す。
論文 参考訳(メタデータ) (2023-02-14T23:50:53Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。