論文の概要: Sampling Binary Data by Denoising through Score Functions
- arxiv url: http://arxiv.org/abs/2502.00557v1
- Date: Sat, 01 Feb 2025 20:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:08.808549
- Title: Sampling Binary Data by Denoising through Score Functions
- Title(参考訳): スコア関数による2値データのサンプリング
- Authors: Francis Bach, Saeed Saremi,
- Abstract要約: Tweedie-Miyasawa式(TMF)はスコアベース生成モデルにおいて重要な要素である。
TMFはノイズデータのスコア関数を介してこれらを結合する。
我々はガウスノイズの代わりにベルヌーイノイズを平滑化装置として採用する。
- 参考スコア(独自算出の注目度): 2.9465623430708905
- License:
- Abstract: Gaussian smoothing combined with a probabilistic framework for denoising via the empirical Bayes formalism, i.e., the Tweedie-Miyasawa formula (TMF), are the two key ingredients in the success of score-based generative models in Euclidean spaces. Smoothing holds the key for easing the problem of learning and sampling in high dimensions, denoising is needed for recovering the original signal, and TMF ties these together via the score function of noisy data. In this work, we extend this paradigm to the problem of learning and sampling the distribution of binary data on the Boolean hypercube by adopting Bernoulli noise, instead of Gaussian noise, as a smoothing device. We first derive a TMF-like expression for the optimal denoiser for the Hamming loss, where a score function naturally appears. Sampling noisy binary data is then achieved using a Langevin-like sampler which we theoretically analyze for different noise levels. At high Bernoulli noise levels sampling becomes easy, akin to log-concave sampling in Euclidean spaces. In addition, we extend the sequential multi-measurement sampling of Saremi et al. (2024) to the binary setting where we can bring the "effective noise" down by sampling multiple noisy measurements at a fixed noise level, without the need for continuous-time stochastic processes. We validate our formalism and theoretical findings by experiments on synthetic data and binarized images.
- Abstract(参考訳): ガウスの滑らか化は、経験的ベイズ形式(すなわちツイーディ・ミヤサワ公式(TMF))を経由する確率的枠組みと組み合わされ、ユークリッド空間におけるスコアベース生成モデルの成功の鍵となる2つの要素である。
Smoothingは、高次元での学習とサンプリングの問題を緩和する鍵を握り、元の信号の復元にはデノイングが必要であり、TMFはノイズの多いデータのスコア関数を介してそれらを結合する。
本研究では,このパラダイムを,ガウス雑音の代わりにベルヌーイ雑音を採用することで,ブールハイパーキューブ上のバイナリデータの分布を学習・サンプリングする問題に拡張する。
まず,ハミング損失に対する最適デノイザに対して,スコア関数が自然に現れるTMFライクな表現を導出する。
次に, 雑音レベルを理論的に解析するLangevinライクなサンプルを用いて, ノイズの多いバイナリデータをサンプリングする。
高ベルヌーイノイズレベルサンプリングはユークリッド空間における対数縮退サンプリングと同様に容易になる。
さらに、Saremi et al (2024) の逐次多重測定サンプリングをバイナリ設定に拡張し、連続時間確率過程を必要とせず、複数のノイズレベルをサンプリングすることで「有効雑音」を下げることができる。
合成データとバイナライズド画像を用いた実験により, フォーマリズムと理論的知見を検証した。
関連論文リスト
- Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - Score-based Generative Models with Adaptive Momentum [40.84399531998246]
変換過程を高速化する適応運動量サンプリング法を提案する。
提案手法は,2倍から5倍の速度で,より忠実な画像/グラフを小さなサンプリングステップで作成できることを示す。
論文 参考訳(メタデータ) (2024-05-22T15:20:27Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Solving Inverse Problems with Score-Based Generative Priors learned from
Noisy Data [1.7969777786551424]
SURE-Scoreは、加法ガウス雑音で劣化したトレーニングサンプルを用いてスコアベースの生成モデルを学習するためのアプローチである。
2つの実践的応用において,SURE-Scoreの事前学習と逆問題に対する後続サンプリングの適用による一般化を実証する。
論文 参考訳(メタデータ) (2023-05-02T02:51:01Z) - DAS-N2N: Machine learning Distributed Acoustic Sensing (DAS) signal
denoising without clean data [0.0]
本稿では、分散音響センサ(DAS)記録における強いランダムノイズを抑制するために、DAS-N2Nと呼ぶ弱い教師付き機械学習手法を提案する。
本研究では,DAS-N2Nが不整合性雑音を著しく抑制し,自然微小地震発生時の信号-雑音比(SNR)を増大させることを示す。
論文 参考訳(メタデータ) (2023-04-17T09:58:52Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Optimizing the Noise in Self-Supervised Learning: from Importance
Sampling to Noise-Contrastive Estimation [80.07065346699005]
GAN(Generative Adversarial Networks)のように、最適な雑音分布はデータ分布に等しくなると広く想定されている。
我々は、この自己教師型タスクをエネルギーベースモデルの推定問題として基礎づけるノイズ・コントラスト推定に目を向ける。
本研究は, 最適雑音のサンプリングは困難であり, 効率性の向上は, データに匹敵する雑音分布を選択することに比べ, 緩やかに行うことができると結論付けた。
論文 参考訳(メタデータ) (2023-01-23T19:57:58Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Removing Noise from Extracellular Neural Recordings Using Fully
Convolutional Denoising Autoencoders [62.997667081978825]
ノイズの多いマルチチャネル入力からクリーンなニューロン活動信号を生成することを学習する完全畳み込みデノイングオートエンコーダを提案する。
シミュレーションデータを用いた実験結果から,提案手法はノイズ崩壊型ニューラルネットワークの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-09-18T14:51:24Z) - Denoising Distantly Supervised Named Entity Recognition via a
Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。
HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。
実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文 参考訳(メタデータ) (2021-06-17T04:01:25Z) - Generative Modeling with Denoising Auto-Encoders and Langevin Sampling [88.83704353627554]
DAEとDSMの両方がスムーズな人口密度のスコアを推定することを示した。
次に、この結果をarXiv:1907.05600のホモトピー法に適用し、その経験的成功を理論的に正当化する。
論文 参考訳(メタデータ) (2020-01-31T23:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。