論文の概要: Beyond Pooling: Matching for Robust Generalization under Data Heterogeneity
- arxiv url: http://arxiv.org/abs/2602.07154v1
- Date: Fri, 06 Feb 2026 19:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.478047
- Title: Beyond Pooling: Matching for Robust Generalization under Data Heterogeneity
- Title(参考訳): ポーリングを超えて: データ不均一性下でのロバストな一般化のためのマッチング
- Authors: Ayush Roy, Rudrasis Chakraborty, Lav Varshney, Vishnu Suresh Lokhande,
- Abstract要約: 本稿では,適応型セントロイドに対してサンプルを選択するマッチングフレームワークを提案し,その表現分布を反復的に洗練する。
これらの改善は、ゼロショットの医療異常検出に寄与する。
- 参考スコア(独自算出の注目度): 9.230247128710865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pooling heterogeneous datasets across domains is a common strategy in representation learning, but naive pooling can amplify distributional asymmetries and yield biased estimators, especially in settings where zero-shot generalization is required. We propose a matching framework that selects samples relative to an adaptive centroid and iteratively refines the representation distribution. The double robustness and the propensity score matching for the inclusion of data domains make matching more robust than naive pooling and uniform subsampling by filtering out the confounding domains (the main cause of heterogeneity). Theoretical and empirical analyses show that, unlike naive pooling or uniform subsampling, matching achieves better results under asymmetric meta-distributions, which are also extended to non-Gaussian and multimodal real-world settings. Most importantly, we show that these improvements translate to zero-shot medical anomaly detection, one of the extreme forms of data heterogeneity and asymmetry. The code is available on https://github.com/AyushRoy2001/Beyond-Pooling.
- Abstract(参考訳): ドメイン間で不均一なデータセットをポーリングすることは表現学習において一般的な戦略であるが、ネーブプールは分布の非対称性を増幅し、特にゼロショットの一般化が必要な環境で偏差推定器を出力することができる。
本稿では,適応型セントロイドに対してサンプルを選択するマッチングフレームワークを提案し,その表現分布を反復的に洗練する。
データドメインを含む場合の二重ロバスト性と適合性スコアは、相反するドメイン(不均一性の主な原因)をフィルタリングすることにより、単純プールや一様サブサンプリングよりもより堅牢になる。
理論的および実証的な分析は、単純プールや均一なサブサンプリングとは異なり、マッチングは非ガウス的およびマルチモーダルな現実世界の設定にも拡張される非対称なメタ分布の下でより良い結果が得られることを示している。
最も重要なことは、これらの改善がゼロショットの医学的異常検出(データ不均一性と非対称性の極端な形態の1つ)に変換されることである。
コードはhttps://github.com/AyushRoy2001/Beyond-Pooling.comで公開されている。
関連論文リスト
- Stratify or Die: Rethinking Data Splits in Image Segmentation [6.391423612294428]
Iterative Pixel Stratification (IPS)は、セグメンテーションタスクに適したラベル対応サンプリング手法である。
We present Wasserstein-Driven Evolutionary Stratification (WDES), a novel genetic algorithm designed to minimize the Wasserstein distance。
論文 参考訳(メタデータ) (2025-09-25T12:04:26Z) - Wasserstein Convergence of Score-based Generative Models under Semiconvexity and Discontinuous Gradients [3.007949058551534]
スコアベース生成モデル(SGM)は、ガウス雑音で摂動させ、学習された拡散過程を通じてデノベーションすることで、データ分布を近似する。
我々は、潜在的に不連続な勾配を持つ半1次を対象とするSGMに対して、最初の非同相なワッサーシュタイン-2収束保証を確立する。
論文 参考訳(メタデータ) (2025-05-06T11:17:15Z) - Towards Self-Supervised Covariance Estimation in Deep Heteroscedastic Regression [102.24287051757469]
深部異方性回帰における自己教師付き共分散推定について検討する。
正規分布の間の2-ワッサーシュタイン距離の上界を導出する。
幅広い合成データセットと実データセットに対する実験により、提案された2-ワッサーシュタインと擬似ラベルアノテーションが結合した結果、計算的に安価で正確な深部ヘテロ代用回帰が導かれることが示された。
論文 参考訳(メタデータ) (2025-02-14T22:37:11Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Data thinning for convolution-closed distributions [2.299914829977005]
本稿では,観測を2つ以上の独立した部分に分割する手法であるデータ薄型化を提案する。
教師なし学習手法の結果の検証には,データの薄化が有効であることを示す。
論文 参考訳(メタデータ) (2023-01-18T02:47:41Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。