論文の概要: fastml: Guarded Resampling Workflows for Safer Automated Machine Learning in R
- arxiv url: http://arxiv.org/abs/2604.05225v1
- Date: Mon, 06 Apr 2026 22:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.518065
- Title: fastml: Guarded Resampling Workflows for Safer Automated Machine Learning in R
- Title(参考訳): fastml: Rで機械学習を自動化するためのガード付きリサンプリングワークフロー
- Authors: Selcuk Korkmaz, Dincer Goksuluk, Eda Karaismailoglu,
- Abstract要約: 我々は、ガードされた再サンプリングを通して漏洩認識機械学習のためのシングルコールインタフェースであるfastmlを提示する。
fastmlはグループ化とタイムオーダーのリサンプリングをサポートし、ハイリスク設定をブロックし、外部依存関係のレシピを監査し、サンドボックス実行と統合モデル説明を含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preprocessing leakage arises when scaling, imputation, or other data-dependent transformations are estimated before resampling, inflating apparent performance while remaining hard to detect. We present fastml, an R package that provides a single-call interface for leakage-aware machine learning through guarded resampling, where preprocessing is re-estimated inside each resample and applied to the corresponding assessment data. The package supports grouped and time-ordered resampling, blocks high-risk configurations, audits recipes for external dependencies, and includes sandboxed execution and integrated model explanation. We evaluate fastml with a Monte Carlo simulation contrasting global and fold-local normalization, a usability comparison with tidymodels under matched specifications, and survival benchmarks across datasets of different sizes. The simulation demonstrates that global preprocessing substantially inflates apparent performance relative to guarded resampling. fastml matched held-out performance obtained with tidymodels while reducing workflow orchestration, and it supported consistent benchmarking of multiple survival model classes through a unified interface.
- Abstract(参考訳): 事前処理のリークは、再サンプリング前にスケーリング、インプット、その他のデータ依存変換が推定されるときに発生し、検出しづらいまま、明らかなパフォーマンスを膨らませる。
本稿では,各リサンプル内で事前処理を再見積し,対応するアセスメントデータに適用する,保護再サンプリングによる漏洩認識機械学習のためのシングルコールインタフェースを提供するRパッケージであるfastmlを提案する。
パッケージはグループ化とタイムオーダーのリサンプリングをサポートし、ハイリスク設定をブロックし、外部依存関係のレシピを監査し、サンドボックス実行と統合モデル説明を含む。
我々は,グローバルおよびフォールド局所正規化と対比したモンテカルロシミュレーション,マッチングされた仕様の下でのティディモデルとのユーザビリティ比較,および異なるサイズのデータセット間での生存率ベンチマークを用いて,fastmlの評価を行った。
シミュレーションにより,グローバルプリプロセッシングは,ガードされた再サンプリングと比較して顕著な性能を著しく向上させることが示された。
fastmlはワークフローオーケストレーションを減らしながら、ティディモデルで得られたホールトアウトパフォーマンスにマッチし、統一インターフェースを通じて複数のサバイバルモデルクラスの一貫したベンチマークをサポートした。
関連論文リスト
- A Learning-Based Superposition Operator for Non-Renewal Arrival Processes in Queueing Networks [0.0]
到着プロセスの重ね合わせは、待ち行列ネットワークにおける基本的だが解析的に難解な操作である。
本稿では,複数の到着ストリームの低次モーメントと自己相関記述子をマージしたプロセスにマッピングするスケーラブルなデータ駆動演算子を提案する。
論文 参考訳(メタデータ) (2026-03-11T13:46:32Z) - Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - MAWIFlow Benchmark: Realistic Flow-Based Evaluation for Network Intrusion Detection [47.86433139298671]
本稿では,MAWILAB v1.1データセットから得られたフローベースベンチマークであるMAWIFlowを紹介する。
得られたデータセットは、2011年1月、2016年、2021年に太平洋横断のバックボーンのトラフィックから引き出された、時間的に異なるサンプルで構成されている。
決定木、ランダムフォレスト、XGBoost、ロジスティック回帰を含む伝統的な機械学習手法は、CNN-BiLSTMアーキテクチャに基づいたディープラーニングモデルと比較される。
論文 参考訳(メタデータ) (2025-06-20T14:51:35Z) - Generalization is not a universal guarantee: Estimating similarity to training data with an ensemble out-of-distribution metric [0.09363323206192666]
機械学習モデルの新しいデータへの一般化の失敗は、AIシステムの信頼性を制限する中核的な問題である。
本稿では、一般化可能性推定(SAGE)のための教師付きオートエンコーダを構築することにより、データの類似性を評価するための標準化されたアプローチを提案する。
モデル自体のトレーニングやテストデータセットのデータに適用しても,SAGEスコアのフィルタリング後にアウト・オブ・ボックスモデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2025-02-22T19:21:50Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Concurrent Misclassification and Out-of-Distribution Detection for
Semantic Segmentation via Energy-Based Normalizing Flow [0.0]
最近のセマンティックセグメンテーションモデルは、トレーニングデータセットの分布に類似したテスト時間例を正確に分類する。
本稿では,正規化フローフレームワークに依存するIDMとOOD検出を同時に行うための生成モデルを提案する。
FlowEneDetは、事前トレーニングされたDeepLabV3+およびSegFormerセマンティックセグメンテーションモデルに適用した場合、IDM/OOD検出におけるCityscapes、Cityscapes-C、FishyScapes、SegmentMeIfYouCanベンチマークの有望な結果を達成する。
論文 参考訳(メタデータ) (2023-05-16T17:02:57Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。