論文の概要: Data Augmentation Scheme for Raman Spectra with Highly Correlated
Annotations
- arxiv url: http://arxiv.org/abs/2402.00851v1
- Date: Thu, 1 Feb 2024 18:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 13:47:48.834357
- Title: Data Augmentation Scheme for Raman Spectra with Highly Correlated
Annotations
- Title(参考訳): 高関連アノテーションを用いたラマンスペクトルのデータ拡張方式
- Authors: Christoph Lange, Isabel Thiele, Lara Santolin, Sebastian L. Riedel,
Maxim Borisyak, Peter Neubauer and M. Nicolas Cruz Bournazou
- Abstract要約: 統計的に独立なラベルを持つデータセットから追加のデータポイントを生成するために、スペクトルの付加的な性質を利用する。
これらのデータポイント上でCNNをトレーニングすることで、アノテーションがモデルトレーニングに使用されたデータセットと同じ相関関係を持たないデータセットのパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 0.23090185577016453
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In biotechnology Raman Spectroscopy is rapidly gaining popularity as a
process analytical technology (PAT) that measures cell densities, substrate-
and product concentrations. As it records vibrational modes of molecules it
provides that information non-invasively in a single spectrum. Typically,
partial least squares (PLS) is the model of choice to infer information about
variables of interest from the spectra. However, biological processes are known
for their complexity where convolutional neural networks (CNN) present a
powerful alternative. They can handle non-Gaussian noise and account for beam
misalignment, pixel malfunctions or the presence of additional substances.
However, they require a lot of data during model training, and they pick up
non-linear dependencies in the process variables. In this work, we exploit the
additive nature of spectra in order to generate additional data points from a
given dataset that have statistically independent labels so that a network
trained on such data exhibits low correlations between the model predictions.
We show that training a CNN on these generated data points improves the
performance on datasets where the annotations do not bear the same correlation
as the dataset that was used for model training. This data augmentation
technique enables us to reuse spectra as training data for new contexts that
exhibit different correlations. The additional data allows for building a
better and more robust model. This is of interest in scenarios where large
amounts of historical data are available but are currently not used for model
training. We demonstrate the capabilities of the proposed method using
synthetic spectra of Ralstonia eutropha batch cultivations to monitor
substrate, biomass and polyhydroxyalkanoate (PHA) biopolymer concentrations
during of the experiments.
- Abstract(参考訳): バイオテクノロジーにおけるラマン分光法は、細胞密度、基質および生成物濃度を測定するプロセス分析技術(PAT)として急速に普及している。
分子の振動モードを記録し、その情報を単一のスペクトルで非侵襲的に提供する。
通常、部分最小二乗 (PLS) はスペクトルから興味のある変数に関する情報を推測する選択のモデルである。
しかし、生物学的プロセスは、畳み込みニューラルネットワーク(CNN)が強力な代替となる複雑さで知られている。
非ガウスノイズを処理し、ビームの誤認、画素の誤動作、または追加物質の存在を考慮できる。
しかし、それらはモデルトレーニング中に多くのデータを必要とし、プロセス変数の非線形依存を拾います。
本研究では,統計的に独立なラベルを持つデータセットから新たなデータポイントを生成するために,スペクトルの付加的な性質を利用して,そのようなデータに基づいてトレーニングされたネットワークがモデル予測の間に低い相関関係を示す。
これらのデータポイント上でCNNをトレーニングすることで、アノテーションがモデルトレーニングに使用されたデータセットと同じ相関関係を持たないデータセットのパフォーマンスが向上することを示す。
このデータ拡張手法により、異なる相関関係を示す新しいコンテキストのトレーニングデータとしてスペクトルを再利用することができる。
さらなるデータにより、より良く、より堅牢なモデルを構築することができる。
これは、大量の履歴データが利用できるが、モデルトレーニングには現在使用されていないシナリオに関心がある。
本研究では, 実験中の基質, バイオマス, ポリヒドロキシアルカノ酸 (pha) バイオポリマー濃度をモニターするために, ラルストニア・エストロファバッチ培養の合成スペクトルを用いて, 提案手法の有用性を実証する。
関連論文リスト
- Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Hodge-Aware Contrastive Learning [101.56637264703058]
単純コンプレックスは、マルチウェイ依存によるデータのモデリングに有効である。
我々は、単純なデータを処理するための対照的な自己教師付き学習手法を開発した。
論文 参考訳(メタデータ) (2023-09-14T00:40:07Z) - Synthetic Augmentation with Large-scale Unconditional Pre-training [4.162192894410251]
アノテーション付きデータへの依存性を低減するため,HistoDiffusionという合成拡張手法を提案する。
HistoDiffusionは、大規模にラベル付けされていないデータセットで事前トレーニングし、その後、拡張トレーニングのために小さなラベル付きデータセットに適用することができる。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
論文 参考訳(メタデータ) (2023-08-08T03:34:04Z) - On the Interplay of Subset Selection and Informed Graph Neural Networks [3.091456764812509]
この研究は、QM9データセットにおける分子の原子化エネルギーの予測に焦点を当てている。
トレーニングセット選択過程における分子多様性の最大化は,線形回帰法および非線形回帰法のロバスト性を高めることを示す。
また、モデルに依存しない説明器を用いて、グラフニューラルネットワークによる予測の信頼性を確認する。
論文 参考訳(メタデータ) (2023-06-15T09:09:27Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - A Federated Learning-based Industrial Health Prognostics for
Heterogeneous Edge Devices using Matched Feature Extraction [16.337207503536384]
本稿では,特徴類似性マッチングパラメータアグリゲーションアルゴリズムを用いたFL型健康予後モデルを提案する。
提案手法は, 健康状態推定と生活寿命推定において, 44.5%, 39.3%の精度向上を達成できることを示す。
論文 参考訳(メタデータ) (2023-05-13T07:20:31Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Trustworthiness of Laser-Induced Breakdown Spectroscopy Predictions via
Simulation-based Synthetic Data Augmentation and Multitask Learning [4.633997895806144]
レーザ誘起分解分光法を用いてスペクトルデータの定量的解析を行う。
我々は、利用可能なトレーニングデータの小さなサイズと、未知のデータに対する推論中の予測の検証に対処する。
論文 参考訳(メタデータ) (2022-10-07T18:00:09Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Cycle-StarNet: Bridging the gap between theory and data by leveraging
large datasets [0.0]
現在のスペクトル分析の自動化手法は、(a)データ駆動であり、恒星パラメータと元素の存在量の事前の知識を必要とするか、(b)理論と実践のギャップに影響を受けやすい理論合成モデルに基づくかのいずれかである。
本研究では、シミュレーションされた恒星スペクトルを、教師なし学習を大規模分光サーベイに適用することにより、現実的なスペクトルに変換するハイブリッドな生成領域適応法を提案する。
論文 参考訳(メタデータ) (2020-07-06T23:06:58Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。