論文の概要: Usage-Specific Survival Modeling Based on Operational Data and Neural Networks
- arxiv url: http://arxiv.org/abs/2403.18739v1
- Date: Wed, 27 Mar 2024 16:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:09:33.681914
- Title: Usage-Specific Survival Modeling Based on Operational Data and Neural Networks
- Title(参考訳): 操作データとニューラルネットワークに基づく生存モデルの利用
- Authors: Olov Holmer, Mattias Krysander, Erik Frisk,
- Abstract要約: 提案した手法は、スナップショットと呼ばれる特定のタイミングで継続的に収集され、保存されるデータを使用してトレーニングされたニューラルネットワークベースの生存モデルに基づいている。
論文は、データがすべてのスナップショット時間が同じ特定のフォーマットにある場合、最大限のトレーニングを適用でき、望ましい結果が得られることを示した。
トレーニング中に必要となるサンプルの数を減らすため,トレーニング開始前にデータセットを再サンプリングする代わりに,トレーニング開始時にデータセットをランダムに再サンプリングする手法を提案する。
- 参考スコア(独自算出の注目度): 0.3999851878220878
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate predictions of when a component will fail are crucial when planning maintenance, and by modeling the distribution of these failure times, survival models have shown to be particularly useful in this context. The presented methodology is based on conventional neural network-based survival models that are trained using data that is continuously gathered and stored at specific times, called snapshots. An important property of this type of training data is that it can contain more than one snapshot from a specific individual which results in that standard maximum likelihood training can not be directly applied since the data is not independent. However, the papers show that if the data is in a specific format where all snapshot times are the same for all individuals, called homogeneously sampled, maximum likelihood training can be applied and produce desirable results. In many cases, the data is not homogeneously sampled and in this case, it is proposed to resample the data to make it homogeneously sampled. How densely the dataset is sampled turns out to be an important parameter; it should be chosen large enough to produce good results, but this also increases the size of the dataset which makes training slow. To reduce the number of samples needed during training, the paper also proposes a technique to, instead of resampling the dataset once before the training starts, randomly resample the dataset at the start of each epoch during the training. The proposed methodology is evaluated on both a simulated dataset and an experimental dataset of starter battery failures. The results show that if the data is homogeneously sampled the methodology works as intended and produces accurate survival models. The results also show that randomly resampling the dataset on each epoch is an effective way to reduce the size of the training data.
- Abstract(参考訳): メンテナンス計画において、コンポーネントがいつ失敗するかの正確な予測が不可欠であり、これらの障害時間の分布をモデル化することによって、生存モデルは、この文脈で特に有用であることが示されている。
提案手法は、スナップショットと呼ばれる特定のタイミングで継続的に収集され、保存されるデータを使用してトレーニングされる従来のニューラルネットワークベースの生存モデルに基づいている。
このタイプのトレーニングデータの重要な特性は、特定の個人から複数のスナップショットを含むことができ、その結果、データが独立していないため、標準の極大トレーニングを直接適用できないことである。
しかし、この論文は、もしデータが全てのスナップショット時間が同じ特定のフォーマットで、同種サンプルと呼ばれる全ての個人が同じである場合、最大限のトレーニングを適用でき、望ましい結果が得られることを示している。
多くの場合、データは均一にサンプリングされることはなく、この場合、データを均質にサンプリングするために再サンプリングすることが提案されている。
データセットがどれだけ密集しているかは重要なパラメータであり、良い結果をもたらすのに十分な大きさのデータセットを選択するべきであるが、トレーニングを遅くするデータセットのサイズも大きくなる。
トレーニング中に必要となるサンプルの数を減らすため,トレーニング開始前にデータセットを再サンプリングする代わりに,トレーニング開始時にデータセットをランダムに再サンプリングする手法を提案する。
提案手法は,シミュレーションデータセットと初期電池故障実験データセットの両方を用いて評価する。
結果は、データが均一にサンプリングされた場合、方法論は意図通りに動作し、正確な生存モデルを生成することを示す。
また、各エポック上でデータセットをランダムに再サンプリングすることは、トレーニングデータのサイズを減らす効果的な方法であることを示した。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。
限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Reduced Robust Random Cut Forest for Out-Of-Distribution detection in
machine learning models [0.799536002595393]
ほとんどの機械学習ベースの回帰器は、限られた長さの過去の観測を通して収集されたデータから情報を抽出し、将来予測する。
これらのトレーニングモデルへの入力は、トレーニングに使用されるデータと統計特性が著しく異なるデータである場合、正確な予測は保証されない。
本稿では,ロバストランダムカットフォレストデータ構造を用いた新しい検出手法を提案する。
論文 参考訳(メタデータ) (2022-06-18T17:01:40Z) - Zero-shot meta-learning for small-scale data from human subjects [10.320654885121346]
我々は,サンプル外テストデータに対する限られたトレーニングデータを用いて,新しい予測タスクに迅速に適応するフレームワークを開発した。
本モデルでは, 介入による遅延処理効果を学習し, 設計上はマルチタスク予測を自然に処理できる。
我々のモデルは、より広い人口への小型人間研究の一般化を向上するために重要である。
論文 参考訳(メタデータ) (2022-03-29T17:42:04Z) - Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T07:07:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。