Fugu-MT 論文翻訳(概要): IT-OSE: Exploring Optimal Sample Size for Industrial Data Augmentation

論文の概要: IT-OSE: Exploring Optimal Sample Size for Industrial Data Augmentation

arxiv url: http://arxiv.org/abs/2602.15878v1
Date: Tue, 03 Feb 2026 08:04:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.685453
Title: IT-OSE: Exploring Optimal Sample Size for Industrial Data Augmentation
Title（参考訳）: IT-OSE: 産業データ拡張のための最適なサンプルサイズを探る
Authors: Mingchun Sun, Rongqiang Zhao, Zhennan Huang, Songyu Ding, Jie Liu,
Abstract要約: 産業シナリオでは、データ拡張はモデルの性能を改善する効果的なアプローチである。拡張における最適なサンプルサイズ(OSS)に関する理論的研究や確立された評価はない。産業データ拡張のための信頼性の高いOSS推定を行うための情報理論最適サンプルサイズ推定(IT-OSE)を提案する。
参考スコア（独自算出の注目度）: 3.536880120341508
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: In industrial scenarios, data augmentation is an effective approach to improve model performance. However, its benefits are not unidirectionally beneficial. There is no theoretical research or established estimation for the optimal sample size (OSS) in augmentation, nor is there an established metric to evaluate the accuracy of OSS or its deviation from the ground truth. To address these issues, we propose an information-theoretic optimal sample size estimation (IT-OSE) to provide reliable OSS estimation for industrial data augmentation. An interval coverage and deviation (ICD) score is proposed to evaluate the estimated OSS intuitively. The relationship between OSS and dominant factors is theoretically analyzed and formulated, thereby enhancing the interpretability. Experiments show that, compared to empirical estimation, the IT-OSE increases accuracy in classification tasks across baseline models by an average of 4.38%, and reduces MAPE in regression tasks across baseline models by an average of 18.80%. The improvements in downstream model performance are more stable. ICDdev in the ICD score is also reduced by an average of 49.30%. The determinism of OSS is enhanced. Compared to exhaustive search, the IT-OSE achieves the same OSS while reducing computational and data costs by an average of 83.97% and 93.46%. Furthermore, practicality experiments demonstrate that the IT-OSE exhibits generality across representative sensor-based industrial scenarios.
Abstract（参考訳）: 産業シナリオでは、データ拡張はモデルの性能を改善する効果的なアプローチである。しかし、その利点は一方的に有益ではない。拡張における最適なサンプルサイズ(OSS)に関する理論的研究や確立された評価は存在せず、OSSの精度や根底からの偏差を評価するための確立された基準も存在しない。これらの課題に対処するため、産業データ拡張のための信頼性の高いOSS推定を行うための情報理論最適サンプルサイズ推定(IT-OSE)を提案する。推定OSSを直感的に評価するために、インターバルカバレッジと偏差スコア(ICD)を提案する。 OSSと支配要因の関係を理論的に解析・定式化し,解釈可能性を高める。実験によると、実証的な推定と比較すると、IT-OSEはベースラインモデル全体の分類タスクの精度を平均4.38%向上し、ベースラインモデル全体の回帰タスクのMAPEを平均18.80%削減している。ダウンストリームモデルのパフォーマンスの改善は、より安定している。 ICDdevのICDスコアも平均49.30%低下している。 OSSの決定性は強化されている。徹底的な検索と比較すると、IT-OSEは計算コストとデータコストを平均83.97%、93.46%削減しながらOSSを達成している。さらに、IT-OSEは、代表的なセンサベースの産業シナリオにまたがる汎用性を示す。

関連論文リスト

Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文参考訳（メタデータ） (2026-03-04T06:52:37Z)
Fault-Tolerant Evaluation for Sample-Efficient Model Performance Estimators [13.227055178509524]
本稿では, バイアスと分散を考慮した耐障害性評価フレームワークを提案する。我々は、$varepsilon$の適切なキャリブレーションにより、異なる分散状態の信頼性が保証されることを示す。実世界のデータセットの実験は、我々のフレームワークが推定器の振る舞いに関する包括的で実行可能な洞察を提供することを示した。
論文参考訳（メタデータ） (2026-02-06T22:14:46Z)
Finding the Sweet Spot: Optimal Data Augmentation Ratio for Imbalanced Credit Scoring Using ADASYN [0.0]
本研究は,Give Me Some Credit データセット (97,243 観測,7% デフォルトレート) を用いて,10データ拡張シナリオを体系的に評価する。最適クラス不均衡比は6.6:1であり、バランスの一般的な慣習は1:1と矛盾していた。この研究は、クレジットスコアリングにおけるデータ拡張に最適な「スイートスポット」が与えられた最初の実証的な証拠を提供し、業界実践者や不均衡なデータセットを扱う研究者のための実践的ガイドラインを提供する。
論文参考訳（メタデータ） (2025-10-21T03:22:43Z)
Enhancement Report Approval Prediction: A Comparative Study of Large Language Models [10.243182983724585]
拡張レポート(ER)は、ユーザと開発者の間の重要なコミュニケーションチャネルとして機能し、ソフトウェア改善のための貴重な提案を捉えます。この課題に対処するために、研究の焦点として強化報告承認予測(ERAP)が登場している。大規模言語モデル(LLM)の最近の進歩は、予測精度を向上する新たな機会を提供する。
論文参考訳（メタデータ） (2025-06-18T03:08:04Z)
Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。 DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文参考訳（メタデータ） (2025-01-02T17:01:06Z)
Testing and Improving the Robustness of Amortized Bayesian Inference for Cognitive Models [0.5223954072121659]
汚染物質観測とアウトリーチは、認知モデルのパラメータを推定する際にしばしば問題を引き起こす。本研究では,アモルタイズされたベイズ推定を用いたパラメータ推定のロバスト性を検証・改善する。提案手法は実装が簡単で実用的であり,外乱検出や除去が困難な分野に適用可能である。
論文参考訳（メタデータ） (2024-12-29T21:22:24Z)
Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文参考訳（メタデータ） (2024-11-30T10:56:30Z)
A Framework for Efficient Model Evaluation through Stratification, Sampling, and Estimation [17.351089059392674]
本稿では,階層化,サンプリング,推定を含むモデル評価のためのフレームワークを提案する。モデル性能の正確な予測に基づいて,k平均クラスタリングによる成層化を行うことで,効率的に推定できることを示す。また、データセットのラベル付けされていない部分におけるモデル精度の予測を利用するモデル支援推定器は、一般的に従来の推定値よりも効率的であることがわかった。
論文参考訳（メタデータ） (2024-06-11T14:49:04Z)
Clinical Deterioration Prediction in Brazilian Hospitals Based on Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文参考訳（メタデータ） (2022-12-17T23:29:14Z)
Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2022-10-12T17:54:59Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文参考訳（メタデータ） (2020-05-01T02:08:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。