論文の概要: Data Diet: Can Trimming PET/CT Datasets Enhance Lesion Segmentation?
- arxiv url: http://arxiv.org/abs/2409.13548v3
- Date: Fri, 4 Oct 2024 16:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:41:58.221513
- Title: Data Diet: Can Trimming PET/CT Datasets Enhance Lesion Segmentation?
- Title(参考訳): データダイエット:PET/CTデータセットをトリミングできるか?
- Authors: Alexander Jaus, Simon Reiß, Jens Klesiek, Rainer Stiefelhagen,
- Abstract要約: 我々はAutoPET3データ中心のトラックで競合するアプローチについて述べる。
AutoPETIIIデータセットでは、データセット全体をトレーニングしたモデルが望ましくない特性を示す。
我々は、スクラッチから再トレーニングする前に、モデル損失によって測定されたトレーニングデータセットから最も簡単なサンプルを取り除き、これを対処する。
- 参考スコア(独自算出の注目度): 68.51625420337575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we describe our approach to compete in the autoPET3 datacentric track. While conventional wisdom suggests that larger datasets lead to better model performance, recent studies indicate that excluding certain training samples can enhance model accuracy. We find that in the autoPETIII dataset, a model that is trained on the entire dataset exhibits undesirable characteristics by producing a large number of false positives particularly for PSMA-PETs. We counteract this by removing the easiest samples from the training dataset as measured by the model loss before retraining from scratch. Using the proposed approach we manage to drive down the false negative volume and improve upon the baseline model in both false negative volume and dice score on the preliminary test set. Code and pre-trained models are available at github.com/alexanderjaus/autopet3_datadiet.
- Abstract(参考訳): 本稿では,AutoPET3データ中心のトラックで競合するアプローチについて述べる。
従来の知恵は、より大きなデータセットがより良いモデル性能をもたらすことを示しているが、最近の研究では、特定のトレーニングサンプルを除くと、モデルの精度が向上することを示している。
AutoPETIIIデータセットでは,特にPSMA-PETに対して多数の偽陽性を発生させることにより,データセット全体をトレーニングしたモデルが望ましくない特性を示すことがわかった。
我々は、スクラッチから再トレーニングする前に、モデル損失によって測定されたトレーニングデータセットから最も簡単なサンプルを取り除き、これを対処する。
提案手法を用いることで, 予備試験セットにおける偽陰体積とダイススコアの両方において, 偽負体積を下げ, ベースラインモデルを改善することができる。
コードと事前訓練されたモデルはgithub.com/alexanderjaus/autopet3_datadietで入手できる。
関連論文リスト
- Data Debiasing with Datamodels (D3M): Improving Subgroup Robustness via Data Selection [80.85902083005237]
データモデルによるデータデバイアス(Data Debiasing with Datamodels, D3M)は、マイノリティグループにおけるモデルの障害を駆動する特定のトレーニング例を分離し、削除するデバイアス(debiasing)アプローチである。
論文 参考訳(メタデータ) (2024-06-24T17:51:01Z) - Verifix: Post-Training Correction to Improve Label Noise Robustness with
Verified Samples [9.91998873101083]
トレーニング後の補正は、初期訓練後のモデルパラメータを調整し、ラベルノイズを軽減する。
Verifixは、小さな検証済みのデータセットを利用して、1回の更新でモデルの重みを補正する新しいアルゴリズムである。
25%の合成汚職を伴うCIFARデータセットの実験では、平均して7.36%の一般化改善が見られた。
論文 参考訳(メタデータ) (2024-03-13T15:32:08Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Continual Pre-Training of Large Language Models: How to (re)warm your
model? [21.8468835868142]
大規模言語モデル(LLM)はトークン上で定期的に事前訓練されるが、新しいデータが利用可能になると再起動する。
我々は,SlimPajama(下流データ,297Bトークン)の事前トレーニングを続けながら,パイル(上流データ,300Bトークン)で事前訓練されたモデルのウォームアップフェーズについて検討した。
以上の結果から,上流データと下流データの損失は再温暖化によって増大するが,より長い実行でダウンストリームのパフォーマンスが向上し,大規模なダウンストリームデータセットに対して10億ドルからトレーニングしたモデルよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-08-08T03:18:18Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - You Only Need a Good Embeddings Extractor to Fix Spurious Correlations [26.23962870932271]
GroupDROは、サブグループラベルを使ってエンドツーエンドでモデルをトレーニングする必要がある。
トレーニングセットのサブグループ情報を用いることなく,最大90%の精度が得られることを示す。
論文 参考訳(メタデータ) (2022-12-12T21:42:33Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - A Comparison of LSTM and BERT for Small Corpus [0.0]
NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習されたモデルを調整することによって、新しいタスクの最先端結果を達成するのに、トランスファーラーニングが役立つことを示している。
本稿では、学術と産業の科学者が頻繁に直面する現実的なシナリオに焦点を当てる。小さなデータセットがあれば、BERTのような大規模な事前学習モデルを使用して、単純なモデルよりも優れた結果を得ることができるか?
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
論文 参考訳(メタデータ) (2020-09-11T14:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。