論文の概要: Diffusion Reconstruction-based Data Likelihood Estimation for Core-Set Selection
- arxiv url: http://arxiv.org/abs/2511.19274v1
- Date: Mon, 24 Nov 2025 16:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.313566
- Title: Diffusion Reconstruction-based Data Likelihood Estimation for Core-Set Selection
- Title(参考訳): 拡散再構成に基づくコアセット選択のためのデータ類似度推定
- Authors: Mingyang Chen, Jiawei Du, Bo Huang, Yi Wang, Xiaobo Zhang, Wei Wang,
- Abstract要約: 本稿では,再構成偏差によるデータ可能性の推定手法を提案する。
マルコフ拡散過程のエビデンス・ロウアー・バウンド(ELBO)に基づいて, 復元誤差とデータ可能性との間の公式な関係を確立する。
ImageNetの実験では、再構成の偏差が効果的なスコアリング基準を提供することを示した。
- 参考スコア(独自算出の注目度): 32.39319533553288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing core-set selection methods predominantly rely on heuristic scoring signals such as training dynamics or model uncertainty, lacking explicit modeling of data likelihood. This omission may hinder the constructed subset from capturing subtle yet critical distributional structures that underpin effective model training. In this work, we propose a novel, theoretically grounded approach that leverages diffusion models to estimate data likelihood via reconstruction deviation induced by partial reverse denoising. Specifically, we establish a formal connection between reconstruction error and data likelihood, grounded in the Evidence Lower Bound (ELBO) of Markovian diffusion processes, thereby enabling a principled, distribution-aware scoring criterion for data selection. Complementarily, we introduce an efficient information-theoretic method to identify the optimal reconstruction timestep, ensuring that the deviation provides a reliable signal indicative of underlying data likelihood. Extensive experiments on ImageNet demonstrate that reconstruction deviation offers an effective scoring criterion, consistently outperforming existing baselines across selection ratios, and closely matching full-data training using only 50% of the data. Further analysis shows that the likelihood-informed nature of our score reveals informative insights in data selection, shedding light on the interplay between data distributional characteristics and model learning preferences.
- Abstract(参考訳): 既存のコアセット選択法は主に、トレーニング力学やモデル不確実性のようなヒューリスティックなスコアリング信号に依存しており、データ可能性の明確なモデリングは欠如している。
この省略は、構築されたサブセットが、効果的なモデルトレーニングの基盤となる微妙で重要な分布構造を捉えるのを妨げる可能性がある。
本研究では、拡散モデルを利用して、部分的逆復調によって誘導される再構成偏差によるデータ確率を推定する、新しい理論的基礎を持つ手法を提案する。
具体的には,マルコフ拡散過程のエビデンス・ロー・バウンド(ELBO)に根ざした再構成誤差とデータ可能性との間の公式な関係を確立し,データ選択の原理的分布を考慮したスコアリング基準を実現する。
相補的に、最適な再構成時間ステップを特定するための効率的な情報理論手法を導入し、その偏差が基礎となるデータ可能性を示す信頼性の高い信号を提供することを保証する。
ImageNetでの大規模な実験では、再構成の偏差は効果的なスコアリング基準を提供し、選択比で既存のベースラインを一貫して上回り、データの50%しか使用していない完全データトレーニングと密に一致していることが示されている。
さらに分析した結果,データ選択において,データ分布特性とモデル学習の嗜好との相互作用に光を当てることによって,情報的洞察を得られる可能性が示唆された。
関連論文リスト
- Federated Online Learning for Heterogeneous Multisource Streaming Data [0.0]
フェデレートラーニングは、プライバシの懸念の下で分散マルチソースデータ分析に不可欠なパラダイムとして登場した。
本稿では,分散マルチソースストリーミングデータ解析のためのFOL手法を提案する。
論文 参考訳(メタデータ) (2025-08-08T19:08:53Z) - Sub-graph Based Diffusion Model for Link Prediction [43.15741675617231]
拡散確率モデル(Denoising Diffusion Probabilistic Models, DDPM)は、例外的な品質を持つ同時代の生成モデルである。
本研究では,ベイズ式による確率推定過程を分解するために,専用設計を用いたリンク予測のための新しい生成モデルを構築した。
提案手法は,(1)再トレーニングを伴わないデータセット間の転送可能性,(2)限られたトレーニングデータに対する有望な一般化,(3)グラフ敵攻撃に対する堅牢性など,多くの利点を示す。
論文 参考訳(メタデータ) (2024-09-13T02:23:55Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Optimal Transport for Structure Learning Under Missing Data [31.240965564055138]
そこで本稿では,最適なトランスポートに基づくデータから因果構造を学習するためのスコアベースアルゴリズムを提案する。
我々のフレームワークは,ほとんどのシミュレーションや実データ設定において競合する手法よりも,真の因果構造を効果的に回復することが示されている。
論文 参考訳(メタデータ) (2024-02-23T10:49:04Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Bayesian Imaging With Data-Driven Priors Encoded by Neural Networks:
Theory, Methods, and Algorithms [2.266704469122763]
本稿では,事前知識がトレーニングデータとして利用可能である逆問題に対して,ベイズ推定を行う新しい手法を提案する。
容易に検証可能な条件下で,関連する後方モーメントの存在と適切性を確立する。
モデル精度解析により、データ駆動モデルによって報告されるベイズ確率は、頻繁な定義の下で著しく正確であることが示された。
論文 参考訳(メタデータ) (2021-03-18T11:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。