論文の概要: Dissecting Sample Hardness: A Fine-Grained Analysis of Hardness
Characterization Methods for Data-Centric AI
- arxiv url: http://arxiv.org/abs/2403.04551v1
- Date: Thu, 7 Mar 2024 14:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:44:19.883936
- Title: Dissecting Sample Hardness: A Fine-Grained Analysis of Hardness
Characterization Methods for Data-Centric AI
- Title(参考訳): 分割サンプル硬さ:データ中心AIの硬さ評価手法の微粒化解析
- Authors: Nabeel Seedat, Fergus Imrie, Mihaela van der Schaar
- Abstract要約: 硬度評価法(HCM)は「硬度」サンプルの同定を目的とする。
硬さ」の定義と評価に関する合意の欠如
硬度分類の微粒化と硬度評価分析ツールキット(H-CAT)を提案する。
H-CATは、硬度分類におけるHCMの包括的かつ定量的なベンチマークをサポートする。
- 参考スコア(独自算出の注目度): 74.00826266000303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Characterizing samples that are difficult to learn from is crucial to
developing highly performant ML models. This has led to numerous Hardness
Characterization Methods (HCMs) that aim to identify "hard" samples. However,
there is a lack of consensus regarding the definition and evaluation of
"hardness". Unfortunately, current HCMs have only been evaluated on specific
types of hardness and often only qualitatively or with respect to downstream
performance, overlooking the fundamental quantitative identification task. We
address this gap by presenting a fine-grained taxonomy of hardness types.
Additionally, we propose the Hardness Characterization Analysis Toolkit
(H-CAT), which supports comprehensive and quantitative benchmarking of HCMs
across the hardness taxonomy and can easily be extended to new HCMs, hardness
types, and datasets. We use H-CAT to evaluate 13 different HCMs across 8
hardness types. This comprehensive evaluation encompassing over 14K setups
uncovers strengths and weaknesses of different HCMs, leading to practical tips
to guide HCM selection and future development. Our findings highlight the need
for more comprehensive HCM evaluation, while we hope our hardness taxonomy and
toolkit will advance the principled evaluation and uptake of data-centric AI
methods.
- Abstract(参考訳): 学習が難しいサンプルを特徴付けることは、高いパフォーマンスのmlモデルを開発する上で非常に重要です。
これは「硬い」サンプルを識別することを目的とした多くのハードネス評価法(HCM)につながった。
しかし、「硬さ」の定義と評価については合意が得られていない。
残念なことに、現在のHCMは特定の種類の硬さでのみ評価されており、基本的な定量化タスクを見越して、定性的または下流のパフォーマンスに関してのみ評価されている。
このギャップに対処するためには、硬度型のきめ細かい分類を提示する。
さらに、硬度分類におけるHCMの総合的かつ定量的なベンチマークをサポートし、新しいHCM、硬度タイプ、データセットに容易に拡張できるH-CAT(Hardness Characterization Analysis Toolkit)を提案する。
H-CATを用いて8種類の硬度タイプで13種類のHCMを評価した。
この包括的評価は14K以上の設定を含んでおり、異なるHCMの強度と弱点を明らかにし、HCMの選択と今後の発展を導くための実践的なヒントをもたらす。
我々の研究は、より包括的なHCM評価の必要性を強調し、硬度分類学とツールキットがデータ中心のAI手法の原則的評価と取り込みを進めることを願っている。
関連論文リスト
- Towards a vision foundation model for comprehensive assessment of Cardiac MRI [11.838157772803282]
心臓磁気共鳴画像(CMR)評価のための視覚基礎モデルを提案する。
CMRワークフローに典型的な9つの臨床的タスクについて、教師付き方法でモデルを微調整する。
すべてのタスクにおいて、ラベル付きデータセットサイズの範囲で、精度と堅牢性が改善されたことを実証する。
論文 参考訳(メタデータ) (2024-10-02T15:32:01Z) - Deep Heterogeneous Contrastive Hyper-Graph Learning for In-the-Wild Context-Aware Human Activity Recognition [2.8132886759540146]
本稿では、異種コンテキスト認識HAR(CA-HAR)ハイパーグラフ特性をキャプチャするフレームワークを提案する。
DHC-HGLは異種CA-HARデータを革新的な方法で処理する。
2つのCA-HARデータセットの厳密な評価では、DHC-HGLは最先端のベースラインよりも著しく優れていた。
論文 参考訳(メタデータ) (2024-09-27T06:43:06Z) - Towards Within-Class Variation in Alzheimer's Disease Detection from Spontaneous Speech [60.08015780474457]
アルツハイマー病(AD)の検出は、機械学習の分類モデルを使用する有望な研究領域として浮上している。
我々は、AD検出において、クラス内変異が重要な課題であると考え、ADを持つ個人は認知障害のスペクトルを示す。
本稿では,ソフトターゲット蒸留 (SoTD) とインスタンスレベルの再分散 (InRe) の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T02:06:05Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Meta-Learned Modality-Weighted Knowledge Distillation for Robust Multi-Modal Learning with Missing Data [26.81952369462594]
マルチモーダル学習では、いくつかのモダリティは他のモダリティよりも影響を受けており、それらの欠如は分類・分類精度に大きな影響を及ぼす可能性がある。
本稿では,メタ学習型モダリティ重み付き知識蒸留(MetaKD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:18:10Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - DDSB: An Unsupervised and Training-free Method for Phase Detection in Echocardiography [37.32413956117856]
本研究では,End-Diastolic (ED) フレームとEnd-Systolic (ES) フレームを識別するための教師なしおよびトレーニング不要な手法を提案する。
アンカー点の同定と方向変形解析により,初期セグメンテーション画像の精度への依存性を効果的に低減する。
本手法は,学習モデルと同等の精度を,関連する欠点を伴わずに達成する。
論文 参考訳(メタデータ) (2024-03-19T14:51:01Z) - CodaMal: Contrastive Domain Adaptation for Malaria Detection in Low-Cost Microscopes [51.5625352379093]
マラリアは世界中で大きな問題であり、診断には低コストの顕微鏡(LCM)で効果的に動作するスケーラブルなソリューションが必要である。
ディープラーニングに基づく手法は、顕微鏡画像からコンピュータ支援による診断に成功している。
これらの方法には、マラリア原虫の感染した細胞とその生活段階を示す注釈画像が必要である。
LCMからの注記画像は、高精細顕微鏡(HCM)からの注記画像と比較して医療専門家の負担を著しく増大させる
論文 参考訳(メタデータ) (2024-02-16T06:57:03Z) - A Review on Knowledge Graphs for Healthcare: Resources, Applications, and Promises [52.31710895034573]
この研究は、医療知識グラフ(HKG)の最初の包括的なレビューを提供する。
HKG構築のためのパイプラインと重要なテクニックを要約し、一般的な利用方法も示す。
アプリケーションレベルでは、さまざまなヘルスドメインにわたるHKGの正常な統合を検討します。
論文 参考訳(メタデータ) (2023-06-07T21:51:56Z) - A Survey: Deep Learning for Hyperspectral Image Classification with Few
Labeled Samples [20.387084755676533]
ディープラーニングは、ハイパースペクトル画像(HSI)分類の分野で広く利用されている。
ディープラーニングモデルは、しばしば多くのトレーニング可能なパラメータを含み、最適なパフォーマンスを達成するために大量のラベル付きサンプルを必要とする。
HSI分類では,手動ラベリングの難易度と時間的特性から,多くのラベル付きサンプルの取得が困難である。
論文 参考訳(メタデータ) (2021-12-03T09:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。