論文の概要: Measuring Quality of DNA Sequence Data via Degradation
- arxiv url: http://arxiv.org/abs/2112.13111v1
- Date: Fri, 24 Dec 2021 17:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-29 12:22:36.473017
- Title: Measuring Quality of DNA Sequence Data via Degradation
- Title(参考訳): 劣化によるDNA配列データの品質測定
- Authors: Alan F. Karr, Jason Hauzel, Adam A. Porter, Marcel Schaefer
- Abstract要約: 本稿では,ゲノムデータの品質評価のための新しいパラダイムを提案し,その有効性を定量的に評価する。
この現象はユビキタスであり, 劣化量の定量化は多目的に有効であることを示す。
- 参考スコア(独自算出の注目度): 0.22940141855172028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose and apply a novel paradigm for characterization of genome data
quality, which quantifies the effects of intentional degradation of quality.
The rationale is that the higher the initial quality, the more fragile the
genome and the greater the effects of degradation. We demonstrate that this
phenomenon is ubiquitous, and that quantified measures of degradation can be
used for multiple purposes. We focus on identifying outliers that may be
problematic with respect to data quality, but might also be true anomalies or
even attempts to subvert the database.
- Abstract(参考訳): 本稿では,ゲノムデータの品質評価のための新しいパラダイムを提案し,その有効性を定量的に評価する。
その理論的根拠は、初期品質が高いほど、ゲノムが脆弱になり、分解の影響が大きくなることである。
我々は, この現象がユビキタスであり, 劣化の定量化が多目的に利用できることを示す。
データ品質に関して問題となる可能性のある外れ値の特定に重点を置いていますが、真の異常である場合や、データベースを変換しようとする場合さえあります。
関連論文リスト
- Investigating the Quality of DermaMNIST and Fitzpatrick17k
Dermatological Image Datasets [19.128392861461297]
DermaMNIST と Fitzpatrick17k という2つの一般的な皮膚画像データセットの精査分析を行った。
データ品質の問題を明らかにし、これらの問題がベンチマーク結果に与える影響を測定し、データセットの修正を提案する。
論文 参考訳(メタデータ) (2024-01-25T20:29:01Z) - AnomalyDiffusion: Few-Shot Anomaly Image Generation with Diffusion Model [59.08735812631131]
製造業において異常検査が重要な役割を担っている。
既存の異常検査手法は、異常データが不足しているため、その性能に制限がある。
本稿では,新しい拡散型マイクロショット異常生成モデルであるAnomalyDiffusionを提案する。
論文 参考訳(メタデータ) (2023-12-10T05:13:40Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Quality In / Quality Out: Assessing Data quality in an Anomaly Detection
Benchmark [0.13764085113103217]
同じベンチマークデータセット(異常検出のためのフローベースリアルタイムデータセットであるUGR'16)に対する比較的小さな変更は、考慮した機械学習技術よりも、モデルパフォーマンスに著しく影響することを示します。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術に,より注意を払う必要があることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - SLA$^2$P: Self-supervised Anomaly Detection with Adversarial
Perturbation [77.71161225100927]
異常検出は、機械学習の基本的な問題であるが、難しい問題である。
本稿では,非教師付き異常検出のための新しい強力なフレームワークであるSLA$2$Pを提案する。
論文 参考訳(メタデータ) (2021-11-25T03:53:43Z) - Detecting Quality Problems in Data Models by Clustering Heterogeneous
Data Values [1.143020642249583]
不均一なデータ値に現れるデータモデルの品質問題を検出するためのボトムアップ手法を提案する。
選択されたデータフィールドのすべての値は、構文的類似性によってクラスタリングされる。
ドメインの専門家は、実際にデータモデルがどのように使われているかを理解し、データモデルの潜在的な品質問題を導き出すのに役立ちます。
論文 参考訳(メタデータ) (2021-11-12T11:05:18Z) - Label scarcity in biomedicine: Data-rich latent factor discovery
enhances phenotype prediction [102.23901690661916]
低次元の埋め込み空間は、健康指標、ライフスタイル、および人口動態の予測をデータスカース化するために、英国バイオバンクの人口データセットから導出することができる。
半超越的アプローチによるパフォーマンス向上は、おそらく様々な医学データサイエンス応用にとって重要な要素となるだろう。
論文 参考訳(メタデータ) (2021-10-12T16:25:50Z) - A Modulation Layer to Increase Neural Network Robustness Against Data
Quality Issues [22.62510395932645]
データ不足と品質は機械学習における一般的な問題であり、特に医療などの高度なアプリケーションにおいて問題となる。
本稿では、低品質データと欠落データの影響を軽減するために、ニューラルネットワークの新たな修正を提案する。
この結果から, 情報品質の低減を全接続層で明示的に考慮することにより, リアルタイムアプリケーションへの人工知能システムの展開が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-19T01:29:16Z) - Learning Deep Neural Networks under Agnostic Corrupted Supervision [37.441467641123026]
我々は,汚職のタイプを前提にせずに,強力な保証を実現する効率的なロバストアルゴリズムを提案する。
本アルゴリズムは,平均勾配に対するデータポイントの集団的影響の制御に重点を置いている。
複数のベンチマークデータセットの実験は、異なる種類の汚職下でのアルゴリズムの堅牢性を実証した。
論文 参考訳(メタデータ) (2021-02-12T19:36:04Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。