論文の概要: The Pitfalls of Sample Selection: A Case Study on Lung Nodule
Classification
- arxiv url: http://arxiv.org/abs/2108.05386v1
- Date: Wed, 11 Aug 2021 18:07:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:38:19.615112
- Title: The Pitfalls of Sample Selection: A Case Study on Lung Nodule
Classification
- Title(参考訳): 症例選択の落とし穴:肺結節分類のケーススタディ
- Authors: Vasileios Baltatzis, Kyriaki-Margarita Bintsi, Loic Le Folgoc, Octavio
E. Martinez Manzanera, Sam Ellis, Arjun Nair, Sujal Desai, Ben Glocker, Julia
A. Schnabel
- Abstract要約: 肺結節分類では, LIDCデータセットについて多くの研究結果が報告されており, 理論的には, 提案手法の性能を直接比較し, 個人の貢献が与える影響を評価することが期待できる。
それぞれが異なるデータ選択プロセスを採用しており,良性と悪性の症例の総数と比率が大きく異なることが判明した。
特定の選択がデータ分布に深刻な影響を与える可能性があることを示し、あるサンプル分布において優れた性能を達成できるが、別のサンプル分布では達成できない可能性があることを示す。
- 参考スコア(独自算出の注目度): 13.376247652484274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using publicly available data to determine the performance of methodological
contributions is important as it facilitates reproducibility and allows
scrutiny of the published results. In lung nodule classification, for example,
many works report results on the publicly available LIDC dataset. In theory,
this should allow a direct comparison of the performance of proposed methods
and assess the impact of individual contributions. When analyzing seven recent
works, however, we find that each employs a different data selection process,
leading to largely varying total number of samples and ratios between benign
and malignant cases. As each subset will have different characteristics with
varying difficulty for classification, a direct comparison between the proposed
methods is thus not always possible, nor fair. We study the particular effect
of truthing when aggregating labels from multiple experts. We show that
specific choices can have severe impact on the data distribution where it may
be possible to achieve superior performance on one sample distribution but not
on another. While we show that we can further improve on the state-of-the-art
on one sample selection, we also find that on a more challenging sample
selection, on the same database, the more advanced models underperform with
respect to very simple baseline methods, highlighting that the selected data
distribution may play an even more important role than the model architecture.
This raises concerns about the validity of claimed methodological
contributions. We believe the community should be aware of these pitfalls and
make recommendations on how these can be avoided in future work.
- Abstract(参考訳): 公開データを使用して方法論的貢献のパフォーマンスを決定することは、再現性を促進し、公表された結果の精査を可能にするため重要である。
例えば肺結節分類では、多くの研究成果がlidcデータセットで公開されている。
理論的には、提案手法の性能を直接比較し、個々の貢献の影響を評価することができる。
しかし、最近の7つの研究を分析した結果、それぞれが異なるデータ選択プロセスを採用しており、サンプルの総数や良性と悪性の比率が大きく異なることが判明した。
各部分集合は分類の難易度が異なる異なる特性を持つため、提案手法間の直接比較は必ずしも可能でもフェアでもない。
複数の専門家のラベルを集約する際の真理の影響について検討する。
特定の選択がデータ分布に重大な影響を与え、あるサンプル分布において優れた性能を達成することができるが、別のサンプル分布では達成できないことを示した。
1つのサンプルセレクションの最先端をさらに改善できることが示されているが、より困難なサンプルセレクションでは、同じデータベース上では、より先進的なモデルは、非常に単純なベースラインメソッドに関して過小評価され、選択されたデータ分散が、モデルアーキテクチャよりもさらに重要な役割を果たす可能性があることを強調する。
これは、主張された方法論的貢献の妥当性に関する懸念を引き起こす。
コミュニティはこれらの落とし穴を認識し、今後の作業でこれらを避ける方法を推奨すべきだと考えています。
関連論文リスト
- Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Undersmoothing Causal Estimators with Generative Trees [0.0]
観察データから個別に治療効果を推定することで、標的となる介入の可能性を解き放つことができる。
しかし、観測データからこれらの効果を推測することは困難である。
本稿では,モデルの不特定に対処する新しい生成木に基づくアプローチについて検討する。
論文 参考訳(メタデータ) (2022-03-16T11:59:38Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - SelectAugment: Hierarchical Deterministic Sample Selection for Data
Augmentation [72.58308581812149]
そこで我々は,SelectAugmentと呼ばれる効果的な手法を提案し,決定論的かつオンラインに拡張するサンプルを選択する。
具体的には、各バッチにおいて、まず増分比率を決定し、次にこの比で各トレーニングサンプルを増分するかを決定する。
これにより、サンプルを増量する際のランダム性による負の効果を効果的に軽減し、DAの有効性を向上させることができる。
論文 参考訳(メタデータ) (2021-12-06T08:38:38Z) - An Empirical Study on the Joint Impact of Feature Selection and Data
Resampling on Imbalance Classification [4.506770920842088]
本研究では,不均衡分類のための特徴選択とデータ再サンプリングの相乗性に着目した。
9つの特徴選択手法、クラス不均衡学習のための6つの再サンプリング手法、および3つのよく知られた分類アルゴリズムを用いて、52の公開データセットに対して多数の実験を行った。
論文 参考訳(メタデータ) (2021-09-01T06:01:51Z) - Investigate the Essence of Long-Tailed Recognition from a Unified
Perspective [11.080317683184363]
深層認識モデルは、カテゴリ間の重い不均衡なサンプル数のために、長い尾のデータ分布に悩まされることが多い。
本研究では,長い尾の認識が標本数とカテゴリの類似性の両方に悩まされていることを示す。
論文 参考訳(メタデータ) (2021-07-08T11:08:40Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。