論文の概要: Food Science Spectroscopy Model Training: Improving Data Efficiency
Using Active Learning and Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2110.03765v1
- Date: Thu, 7 Oct 2021 19:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 07:07:15.601364
- Title: Food Science Spectroscopy Model Training: Improving Data Efficiency
Using Active Learning and Semi-Supervised Learning
- Title(参考訳): 食品科学分光モデルトレーニング: アクティブラーニングと半教師付き学習によるデータ効率の向上
- Authors: Huanle Zhang and Nicharee Wisuthiphaet and Hemiao Cui and Nitin Nitin
and Xin Liu
- Abstract要約: 本稿では,機械学習(ML)アプリケーションのデータ効率を改善するために,データアノテーションとモデルトレーニングの異なるアプローチについて検討する。
具体的には、アクティブラーニング(AL)とセミスーパーバイズドラーニング(SSL)を活用し、ベースライン受動的ラーニング、AL、SSL、ALとSSLのハイブリッドの4つのアプローチを調査します。
実験の結果,実受動的学習手法と比較して,AL法とSSL法では各MLアプリケーションのラベル付きサンプルの数が50%,25%削減されていることがわかった。
- 参考スコア(独自算出の注目度): 2.9976655941261803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past decade witnesses a rapid development in the measurement and
monitoring technologies for food science. Among these technologies,
spectroscopy has been widely used for the analysis of food quality, safety, and
nutritional properties. Due to the complexity of food systems and the lack of
comprehensive predictive models, rapid and simple measurements to predict
complex properties in food systems are largely missing. Machine Learning (ML)
has shown great potential to improve classification and prediction of these
properties. However, the barriers to collect large datasets for ML applications
still persists. In this paper, we explore different approaches of data
annotation and model training to improve data efficiency for ML applications.
Specifically, we leverage Active Learning (AL) and Semi-Supervised Learning
(SSL) and investigate four approaches: baseline passive learning, AL, SSL, and
a hybrid of AL and SSL. To evaluate these approaches, we collect two
spectroscopy datasets: predicting plasma dosage and detecting foodborne
pathogen. Our experimental results show that, compared to the de facto passive
learning approach, AL and SSL methods reduce the number of labeled samples by
50% and 25% for each ML application, respectively.
- Abstract(参考訳): 過去10年間、食品科学の計測とモニタリング技術は急速に発展してきた。
これらの技術のうち、分光は食品の品質、安全性、栄養特性の分析に広く使われている。
食品システムの複雑さと包括的予測モデルの欠如により、食品システムの複雑な性質を予測するための迅速かつ単純な測定がほとんど失われている。
機械学習(ML)は、これらの特性の分類と予測を改善する大きな可能性を示している。
しかし、MLアプリケーションの大規模なデータセットを収集する障壁はまだ残っている。
本稿では、MLアプリケーションのデータ効率を改善するために、データアノテーションとモデルトレーニングの異なるアプローチを検討する。
具体的には、アクティブラーニング(AL)とセミスーパービジョンラーニング(SSL)を活用し、ベースライン受動的ラーニング、AL、SSL、ALとSSLのハイブリッドの4つのアプローチを調査します。
これらの手法を評価するために,プラズマ量予測と食品由来病原体検出という2つの分光分析データセットを収集した。
実験の結果,実受動的学習手法と比較して,AL法とSSL法は各MLアプリケーションにおいて,ラベル付きサンプルの数を50%,25%削減することがわかった。
関連論文リスト
- Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models [1.204452887718077]
データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。
本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
論文 参考訳(メタデータ) (2024-06-27T04:42:29Z) - Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
論文 参考訳(メタデータ) (2024-05-23T11:24:23Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
多層構造プロンプトを用いたゼロショット/ファウショットインコンテキスト学習(ICL)のための新しい手法を開発した。
また、ユーザと大規模言語モデル(LLM)間の2つのコミュニケーションスタイルの有効性についても検討する。
本研究は,性別バイアスや偽陰性率などの診断精度とリスク要因を系統的に評価する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Machine Learning Small Molecule Properties in Drug Discovery [44.62264781248437]
我々は, 結合親和性, 溶解性, ADMET (吸収, 分布, 代謝, 排出, 毒性) を含む幅広い特性について検討する。
化学指紋やグラフベースニューラルネットワークなど,既存の一般的な記述子や埋め込みについて論じる。
最後に、モデル予測の理解を提供する技術、特に薬物発見における重要な意思決定について評価する。
論文 参考訳(メタデータ) (2023-08-02T22:18:41Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Graph-based Semi-supervised Learning: A Comprehensive Review [51.26862262550445]
半教師付き学習(ssl)はラベル付きデータとラベルなしデータの両方を利用する能力があるため、実際非常に価値があります。
重要なSSLメソッドのクラスは、グラフベースの半教師付き学習(GSSL)メソッドに対応するグラフとしてデータを自然に表現することです。
GSSLメソッドは、構造のユニークさ、アプリケーションの普遍性、大規模データへのスケーラビリティのために、さまざまなドメインでその利点を実証しています。
論文 参考訳(メタデータ) (2021-02-26T05:11:09Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。