論文の概要: Evaluating the Efficacy of Instance Incremental vs. Batch Learning in Delayed Label Environments: An Empirical Study on Tabular Data Streaming for Fraud Detection
- arxiv url: http://arxiv.org/abs/2409.10111v1
- Date: Mon, 16 Sep 2024 09:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:09:48.744503
- Title: Evaluating the Efficacy of Instance Incremental vs. Batch Learning in Delayed Label Environments: An Empirical Study on Tabular Data Streaming for Fraud Detection
- Title(参考訳): 遅延ラベル環境におけるインスタンスインクリメンタル対バッチ学習の有効性の評価:フレード検出のための語彙データストリーミングに関する実証的研究
- Authors: Kodjo Mawuena Amekoe, Mustapha Lebbah, Gregoire Jaffre, Hanene Azzag, Zaineb Chelly Dagdia,
- Abstract要約: 不正検出やクレジットスコアリングといった現実世界のシナリオでは、ラベルが遅れる可能性がある。
バッチインクリメンタルアルゴリズムは多くの現実世界のタスクで広く使われている。
以上の結果から,インクリメンタル学習が優れた選択肢ではないことが示唆された。
- 参考スコア(独自算出の注目度): 0.13980986259786224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world tabular learning production scenarios typically involve evolving data streams, where data arrives continuously and its distribution may change over time. In such a setting, most studies in the literature regarding supervised learning favor the use of instance incremental algorithms due to their ability to adapt to changes in the data distribution. Another significant reason for choosing these algorithms is \textit{avoid storing observations in memory} as commonly done in batch incremental settings. However, the design of instance incremental algorithms often assumes immediate availability of labels, which is an optimistic assumption. In many real-world scenarios, such as fraud detection or credit scoring, labels may be delayed. Consequently, batch incremental algorithms are widely used in many real-world tasks. This raises an important question: "In delayed settings, is instance incremental learning the best option regarding predictive performance and computational efficiency?" Unfortunately, this question has not been studied in depth, probably due to the scarcity of real datasets containing delayed information. In this study, we conduct a comprehensive empirical evaluation and analysis of this question using a real-world fraud detection problem and commonly used generated datasets. Our findings indicate that instance incremental learning is not the superior option, considering on one side state-of-the-art models such as Adaptive Random Forest (ARF) and other side batch learning models such as XGBoost. Additionally, when considering the interpretability of the learning systems, batch incremental solutions tend to be favored. Code: \url{https://github.com/anselmeamekoe/DelayedLabelStream}
- Abstract(参考訳): 現実の表形式の学習シナリオでは、一般的にデータストリームが進化し、データが継続的に到着し、その分散が時間とともに変化する。
このような状況下では、教師付き学習に関する文献研究の多くは、データ分布の変化に適応できるため、インスタンスインクリメンタルアルゴリズムの使用を好んでいる。
これらのアルゴリズムを選択するもうひとつの重要な理由は、バッチインクリメンタルな設定で一般的に行われるように、‘textit{avoid storage observed in memory} である。
しかし、インクリメンタルアルゴリズムの設計は、しばしばラベルの即時利用を前提としており、これは楽観的な仮定である。
不正検出やクレジットスコアリングなど、現実世界の多くのシナリオでは、ラベルが遅れる可能性がある。
その結果、バッチインクリメンタルアルゴリズムは多くの実世界のタスクで広く利用されている。
遅延した設定では、予測性能と計算効率に関して、インクリメンタルな学習が最良の選択肢なのだろうか?
残念ながら、この問題は、おそらく遅延情報を含む実際のデータセットが不足しているため、深く研究されていない。
本研究では,実世界の不正検出問題と一般的に使用されているデータセットを用いて,この問題の包括的評価と分析を行う。
適応ランダムフォレスト(ARF)やXGBoostのような他のサイドバッチ学習モデルを考えると,インスタンスインクリメンタル学習が優れた選択肢ではないことが示唆されている。
さらに、学習システムの解釈可能性を考慮すると、バッチインクリメンタルなソリューションが好まれる傾向があります。
コード: \url{https://github.com/anselmeamekoe/delayedLabelStream}
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。
この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。
本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:43:59Z) - TESSERACT: Eliminating Experimental Bias in Malware Classification
across Space and Time (Extended Version) [18.146377453918724]
マルウェア検知器は、常に進化するオペレーティングシステムや攻撃方法によって、しばしば性能劣化を経験する。
本論文は, 検出作業における2つの実験バイアス源により, 一般的に報告される結果が膨らんでいることを論じる。
論文 参考訳(メタデータ) (2024-02-02T12:27:32Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Stream-based active learning with linear models [0.7734726150561089]
生産において、製品情報を取得するためにランダム検査を行う代わりに、ラベルなしデータの情報内容を評価することによりラベルを収集する。
本稿では,ストリームベースのシナリオを学習者に順次提供するための新たな戦略を提案する。
未ラベルデータポイントの通知性にしきい値を設定することにより、意思決定プロセスの反復的な側面に取り組む。
論文 参考訳(メタデータ) (2022-07-20T13:15:23Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Contextual Bandits for adapting to changing User preferences over time [0.4061135251278187]
コンテキストブレイディットは、オンライン(インクリメンタル)学習を活用することで、MLの動的データ問題をモデル化する効果的な方法を提供する。
我々は,行動に基づく学習者の配列を用いて,この問題を解決する新しいアルゴリズムを構築した。
我々は、標準のMine Lensデータセットから異なるユーザーによって、時間の経過とともに映画のレーティングを予測するためにこのアプローチを適用する。
論文 参考訳(メタデータ) (2020-09-21T12:17:42Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Fase-AL -- Adaptation of Fast Adaptive Stacking of Ensembles for
Supporting Active Learning [0.0]
本研究は,Active Learning を用いて非ラベルのインスタンスで分類モデルを誘導する FASE-AL アルゴリズムを提案する。
このアルゴリズムは、正しく分類されたインスタンスの割合で有望な結果を得る。
論文 参考訳(メタデータ) (2020-01-30T17:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。