論文の概要: IT-OSE: Exploring Optimal Sample Size for Industrial Data Augmentation
- arxiv url: http://arxiv.org/abs/2602.15878v1
- Date: Tue, 03 Feb 2026 08:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.685453
- Title: IT-OSE: Exploring Optimal Sample Size for Industrial Data Augmentation
- Title(参考訳): IT-OSE: 産業データ拡張のための最適なサンプルサイズを探る
- Authors: Mingchun Sun, Rongqiang Zhao, Zhennan Huang, Songyu Ding, Jie Liu,
- Abstract要約: 産業シナリオでは、データ拡張はモデルの性能を改善する効果的なアプローチである。
拡張における最適なサンプルサイズ(OSS)に関する理論的研究や確立された評価はない。
産業データ拡張のための信頼性の高いOSS推定を行うための情報理論最適サンプルサイズ推定(IT-OSE)を提案する。
- 参考スコア(独自算出の注目度): 3.536880120341508
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In industrial scenarios, data augmentation is an effective approach to improve model performance. However, its benefits are not unidirectionally beneficial. There is no theoretical research or established estimation for the optimal sample size (OSS) in augmentation, nor is there an established metric to evaluate the accuracy of OSS or its deviation from the ground truth. To address these issues, we propose an information-theoretic optimal sample size estimation (IT-OSE) to provide reliable OSS estimation for industrial data augmentation. An interval coverage and deviation (ICD) score is proposed to evaluate the estimated OSS intuitively. The relationship between OSS and dominant factors is theoretically analyzed and formulated, thereby enhancing the interpretability. Experiments show that, compared to empirical estimation, the IT-OSE increases accuracy in classification tasks across baseline models by an average of 4.38%, and reduces MAPE in regression tasks across baseline models by an average of 18.80%. The improvements in downstream model performance are more stable. ICDdev in the ICD score is also reduced by an average of 49.30%. The determinism of OSS is enhanced. Compared to exhaustive search, the IT-OSE achieves the same OSS while reducing computational and data costs by an average of 83.97% and 93.46%. Furthermore, practicality experiments demonstrate that the IT-OSE exhibits generality across representative sensor-based industrial scenarios.
- Abstract(参考訳): 産業シナリオでは、データ拡張はモデルの性能を改善する効果的なアプローチである。
しかし、その利点は一方的に有益ではない。
拡張における最適なサンプルサイズ(OSS)に関する理論的研究や確立された評価は存在せず、OSSの精度や根底からの偏差を評価するための確立された基準も存在しない。
これらの課題に対処するため、産業データ拡張のための信頼性の高いOSS推定を行うための情報理論最適サンプルサイズ推定(IT-OSE)を提案する。
推定OSSを直感的に評価するために、インターバルカバレッジと偏差スコア(ICD)を提案する。
OSSと支配要因の関係を理論的に解析・定式化し,解釈可能性を高める。
実験によると、実証的な推定と比較すると、IT-OSEはベースラインモデル全体の分類タスクの精度を平均4.38%向上し、ベースラインモデル全体の回帰タスクのMAPEを平均18.80%削減している。
ダウンストリームモデルのパフォーマンスの改善は、より安定している。
ICDdevのICDスコアも平均49.30%低下している。
OSSの決定性は強化されている。
徹底的な検索と比較すると、IT-OSEは計算コストとデータコストを平均83.97%、93.46%削減しながらOSSを達成している。
さらに、IT-OSEは、代表的なセンサベースの産業シナリオにまたがる汎用性を示す。
関連論文リスト
- Finding the Sweet Spot: Optimal Data Augmentation Ratio for Imbalanced Credit Scoring Using ADASYN [0.0]
本研究は,Give Me Some Credit データセット (97,243 観測,7% デフォルトレート) を用いて,10データ拡張シナリオを体系的に評価する。
最適クラス不均衡比は6.6:1であり、バランスの一般的な慣習は1:1と矛盾していた。
この研究は、クレジットスコアリングにおけるデータ拡張に最適な「スイートスポット」が与えられた最初の実証的な証拠を提供し、業界実践者や不均衡なデータセットを扱う研究者のための実践的ガイドラインを提供する。
論文 参考訳(メタデータ) (2025-10-21T03:22:43Z) - Enhancement Report Approval Prediction: A Comparative Study of Large Language Models [10.243182983724585]
拡張レポート(ER)は、ユーザと開発者の間の重要なコミュニケーションチャネルとして機能し、ソフトウェア改善のための貴重な提案を捉えます。
この課題に対処するために、研究の焦点として強化報告承認予測(ERAP)が登場している。
大規模言語モデル(LLM)の最近の進歩は、予測精度を向上する新たな機会を提供する。
論文 参考訳(メタデータ) (2025-06-18T03:08:04Z) - Testing and Improving the Robustness of Amortized Bayesian Inference for Cognitive Models [0.5223954072121659]
汚染物質観測とアウトリーチは、認知モデルのパラメータを推定する際にしばしば問題を引き起こす。
本研究では,アモルタイズされたベイズ推定を用いたパラメータ推定のロバスト性を検証・改善する。
提案手法は実装が簡単で実用的であり,外乱検出や除去が困難な分野に適用可能である。
論文 参考訳(メタデータ) (2024-12-29T21:22:24Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - A Framework for Efficient Model Evaluation through Stratification, Sampling, and Estimation [17.351089059392674]
本稿では,階層化,サンプリング,推定を含むモデル評価のためのフレームワークを提案する。
モデル性能の正確な予測に基づいて,k平均クラスタリングによる成層化を行うことで,効率的に推定できることを示す。
また、データセットのラベル付けされていない部分におけるモデル精度の予測を利用するモデル支援推定器は、一般的に従来の推定値よりも効率的であることがわかった。
論文 参考訳(メタデータ) (2024-06-11T14:49:04Z) - Clinical Deterioration Prediction in Brazilian Hospitals Based on
Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる
XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文 参考訳(メタデータ) (2022-12-17T23:29:14Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。