論文の概要: Support Estimation with Sampling Artifacts and Errors
- arxiv url: http://arxiv.org/abs/2006.07999v1
- Date: Sun, 14 Jun 2020 19:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 10:11:24.488996
- Title: Support Estimation with Sampling Artifacts and Errors
- Title(参考訳): サンプルアーチファクトとエラーによるサポート推定
- Authors: Eli Chien, Olgica Milenkovic, Angelia Nedich
- Abstract要約: 人工物やエラーをサンプリングして推定する手法を最初に紹介する。
提案手法は,正規化重み付きチェビシェフ近似に基づく。
我々は,最先端のノイズレスサポート推定手法の適切な修正によって得られた手法と比較して,統合手法の大幅な改善を観察した。
- 参考スコア(独自算出の注目度): 31.62490114774054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of estimating the support of a distribution is of great
importance in many areas of machine learning, computer science, physics and
biology. Most of the existing work in this domain has focused on settings that
assume perfectly accurate sampling approaches, which is seldom true in
practical data science. Here we introduce the first known approach to support
estimation in the presence of sampling artifacts and errors where each sample
is assumed to arise from a Poisson repeat channel which simultaneously captures
repetitions and deletions of samples. The proposed estimator is based on
regularized weighted Chebyshev approximations, with weights governed by
evaluations of so-called Touchard (Bell) polynomials. The supports in the
presence of sampling artifacts are calculated using discretized semi-infite
programming methods. The estimation approach is tested on synthetic and textual
data, as well as on GISAID data collected to address a new problem in
computational biology: mutational support estimation in genes of the SARS-Cov-2
virus. In the later setting, the Poisson channel captures the fact that many
individuals are tested multiple times for the presence of viral RNA, thereby
leading to repeated samples, while other individual's results are not recorded
due to test errors. For all experiments performed, we observed significant
improvements of our integrated methods compared to those obtained through
adequate modifications of state-of-the-art noiseless support estimation
methods.
- Abstract(参考訳): 分布の支持を推定する問題は、機械学習、計算機科学、物理学、生物学の多くの分野において非常に重要である。
この領域における既存の作業の多くは、完全に正確なサンプリングアプローチを前提とした設定に重点を置いている。
ここでは,サンプルの繰り返しと削除を同時にキャプチャするPoissonリピートチャネルから,各サンプルが出現すると仮定されるサンプリングアーティファクトの存在下での推測を支援するための最初の方法を紹介する。
提案する推定器は正則化重み付きチェビシェフ近似に基づいており、重みはいわゆる touchard (bell) 多項式の評価によって制御される。
サンプルアーティファクトの存在下での支持は、離散化されたセミインファイトプログラミング手法を用いて計算される。
この推定手法は、SARS-Cov-2ウイルスの遺伝子における突然変異支援推定という計算生物学の新たな問題に対処するために収集されたGISAIDデータと同様に、合成データおよびテキストデータに基づいて試験される。
後の設定では、ポアソンチャネルは、多くの個体がウイルスrnaの存在のために複数回テストされているという事実を捉え、その結果、繰り返しサンプルとなるが、他の個体の結果はテストエラーのために記録されない。
全ての実験において,最先端ノイズレス支援手法の適切な修正により得られた手法と比較して,統合手法の大幅な改善が見られた。
関連論文リスト
- DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - A sparse PAC-Bayesian approach for high-dimensional quantile prediction [0.0]
本稿では,高次元量子化予測のための確率論的機械学習手法を提案する。
擬似ベイズ的フレームワークとスケールした学生tとランゲヴィン・モンテカルロを併用して効率的な計算を行う。
その効果はシミュレーションや実世界のデータを通じて検証され、そこでは確立された頻繁な手法やベイズ的手法と競合する。
論文 参考訳(メタデータ) (2024-09-03T08:01:01Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Multi-Source and Test-Time Domain Adaptation on Multivariate Signals using Spatio-Temporal Monge Alignment [59.75420353684495]
コンピュータビジョンやバイオメディカルデータなどの信号に対する機械学習の応用は、ハードウェアデバイスやセッション記録にまたがる変動のため、しばしば課題に直面している。
本研究では,これらの変動を緩和するために,時空間モンジュアライメント(STMA)を提案する。
我々はSTMAが、非常に異なる設定で取得したデータセット間で、顕著で一貫したパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - Multi-CATE: Multi-Accurate Conditional Average Treatment Effect Estimation Robust to Unknown Covariate Shifts [12.289361708127876]
我々は、CATE T-learnerを後処理するために、マルチ精度の予測子を学習するために方法論を使用する。
このアプローチは、(より大きな)確立された観測データと(より小さな)ランダム化されたデータセットを組み合わせることができることを示す。
論文 参考訳(メタデータ) (2024-05-28T14:12:25Z) - Reducing the cost of posterior sampling in linear inverse problems via task-dependent score learning [5.340736751238338]
前方マッピングの評価は, 後部サンプル生成時に完全に回避可能であることを示す。
この観測は、最近導入された無限次元拡散モデルの枠組みに一般化されることを証明している。
論文 参考訳(メタデータ) (2024-05-24T15:33:27Z) - Estimating Unknown Population Sizes Using the Hypergeometric Distribution [1.03590082373586]
総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。
本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。
実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-22T01:53:56Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z) - Efficiently Sampling Functions from Gaussian Process Posteriors [76.94808614373609]
高速後部サンプリングのための簡易かつ汎用的なアプローチを提案する。
分離されたサンプルパスがガウス過程の後部を通常のコストのごく一部で正確に表現する方法を実証する。
論文 参考訳(メタデータ) (2020-02-21T14:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。