論文の概要: Assessing the Impact of the Quality of Textual Data on Feature Representation and Machine Learning Models
- arxiv url: http://arxiv.org/abs/2502.08669v1
- Date: Wed, 12 Feb 2025 00:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:49:01.442945
- Title: Assessing the Impact of the Quality of Textual Data on Feature Representation and Machine Learning Models
- Title(参考訳): テキストデータの質が特徴表現と機械学習モデルに及ぼす影響の評価
- Authors: Tabinda Sarwar, Antonio Jose Jimeno Yepes, Lawrence Cavedon,
- Abstract要約: この研究は、高品質MIMIC-III公立病院データセットと、オーストラリアの高齢者介護施設の低品質プライベートデータセットの2つの医療データセットを分析した。
ミキサールは63%の進捗ノートで誤りを正しく検出し、17%は医療用語によって1つのトークンが誤分類された。
- 参考スコア(独自算出の注目度): 0.03724049002462992
- License:
- Abstract: Background: Data collected in controlled settings typically results in high-quality datasets. However, in real-world applications, the quality of data collection is often compromised. It is well established that the quality of a dataset significantly impacts the performance of machine learning models. Methods: A rudimentary error rate metric was developed to evaluate textual dataset quality at the token level. Mixtral Large Language Model (LLM) was used to quantify and correct errors in low quality datasets. The study analyzed two healthcare datasets: the high-quality MIMIC-III public hospital dataset and a lower-quality private dataset from Australian aged care homes. Errors were systematically introduced into MIMIC at varying rates, while the ACH dataset quality was improved using the LLM. Results: For the sampled 35,774 and 6,336 patients from the MIMIC and ACH datasets respectively, we used Mixtral to introduce errors in MIMIC and correct errors in ACH. Mixtral correctly detected errors in 63% of progress notes, with 17% containing a single token misclassified due to medical terminology. LLMs demonstrated potential for improving progress note quality by addressing various errors. Under varying error rates, feature representation performance was tolerant to lower error rates (<10%) but declined significantly at higher rates. Conclusions: The study revealed that models performed relatively well on datasets with lower error rates (<10%), but their performance declined significantly as error rates increased (>=10%). Therefore, it is crucial to evaluate the quality of a dataset before utilizing it for machine learning tasks. For datasets with higher error rates, implementing corrective measures is essential to ensure the reliability and effectiveness of machine learning models.
- Abstract(参考訳): 背景: コントロールされた設定で収集されたデータは、通常、高品質なデータセットをもたらす。
しかし、現実世界のアプリケーションでは、データ収集の品質がしばしば損なわれる。
データセットの品質が機械学習モデルの性能に大きく影響していることはよく確認されている。
方法: トークンレベルでのテキストデータセットの品質を評価するために, 初歩誤差率測定法を開発した。
混合大言語モデル(LLM)は、低品質データセットにおける誤りの定量化と修正に用いられた。
研究は、高品質MIMIC-III公立病院データセットと、オーストラリアの高齢者介護施設の低品質プライベートデータセットの2つの医療データセットを分析した。
誤差はMIMICに様々な速度で体系的に導入され、ACHデータセットの品質はLLMを用いて改善された。
結果:MIMICおよびACHデータセットから採取した35,774例と6,336例について,MIMICの誤りとACHの誤りの訂正にMixtralを用いた。
ミキサールは63%の進捗ノートで誤りを正しく検出し、17%は医療用語によって1つのトークンが誤分類された。
LLMは、様々なエラーに対処することで、進行音質を改善する可能性を示した。
様々なエラー率の下では、特徴表現性能は低いエラー率 (10%) に耐性があったが、高いレートでは著しく低下した。
結論: 本研究では, 誤り率の低いデータセットにおいて, モデルが比較的良好に動作すること (10%) を明らかにしたが, エラー率の増加 (>=10%) に伴い, それらの性能は著しく低下した。
そのため、機械学習タスクに使用する前にデータセットの品質を評価することが重要である。
エラー率の高いデータセットでは、マシンラーニングモデルの信頼性と有効性を保証するために、修正措置を実装することが不可欠である。
関連論文リスト
- Enhancing Machine Learning Performance through Intelligent Data Quality Assessment: An Unsupervised Data-centric Framework [0.0]
不適切なデータ品質は機械学習(ML)の有利なパワーを制限する
本稿では,高品質なデータを特定し,MLシステムの性能を向上させるインテリジェントなデータ中心評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:01:36Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - M$^3$-Impute: Mask-guided Representation Learning for Missing Value Imputation [12.174699459648842]
M$3$-Imputeは、不足情報や新しいマスキング手法との相関性を明示的に活用することを目的としている。
実験の結果,M$3$-Imputeは平均20点,第2bのMAEスコアが4点であった。
論文 参考訳(メタデータ) (2024-10-11T13:25:32Z) - Quality In / Quality Out: Data quality more relevant than model choice in anomaly detection with the UGR'16 [0.29998889086656577]
ベンチマークデータセットの比較的小さな変更は、考慮された特定のML手法よりも、モデルパフォーマンスに著しく影響することを示します。
また、不正確なラベル付けの結果、測定されたモデル性能が不確かであることも示す。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - ELMV: an Ensemble-Learning Approach for Analyzing Electrical Health
Records with Significant Missing Values [4.9810955364960385]
本稿では,ELMV(Ensemble-Learning for Missing Value)フレームワークを提案する。
ELMVは、重要な特徴識別のための現実世界の医療データと、結果予測の欠落率の異なるシミュレーションデータのバッチで評価されている。
論文 参考訳(メタデータ) (2020-06-25T06:29:55Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z) - On the Role of Dataset Quality and Heterogeneity in Model Confidence [27.657631193015252]
安全クリティカルなアプリケーションは、正確で校正された確率を出力する機械学習モデルを必要とする。
未分類のディープネットワークは、過度に信頼された予測をすることが知られている。
本研究では,データセットサイズとラベルノイズがモデルの信頼性に与える影響について検討した。
論文 参考訳(メタデータ) (2020-02-23T05:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。