Fugu-MT 論文翻訳(概要): On the Costs and Benefits of Adopting Lifelong Learning for Software Analytics -- Empirical Study on Brown Build and Risk Prediction

論文の概要: On the Costs and Benefits of Adopting Lifelong Learning for Software Analytics -- Empirical Study on Brown Build and Risk Prediction

arxiv url: http://arxiv.org/abs/2305.09824v2
Date: Mon, 12 Feb 2024 17:43:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 01:05:41.958014
Title: On the Costs and Benefits of Adopting Lifelong Learning for Software Analytics -- Empirical Study on Brown Build and Risk Prediction
Title（参考訳）: ソフトウェア分析に生涯学習を採用するコストとメリットについて -ブラウンビルドとリスク予測に関する実証的研究-
Authors: Doriane Olewicki, Sarra Habchi, Mathieu Nayrolles, Mojtaba Faramarzi, Sarath Chandar, Bram Adams
Abstract要約: 本稿では,ユビソフトにおける産業用ユースケースにおける生涯学習(LL)の利用について検討する。 LLは、新しいデータを使用して古いモデルを段階的に更新するインクリメンタルラーナを使用して、MLベースのソフトウェア分析ツールを継続的に構築し、メンテナンスするために使用される。
参考スコア（独自算出の注目度）: 17.502553991799832
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Nowadays, software analytics tools using machine learning (ML) models to, for example, predict the risk of a code change are well established. However, as the goals of a project shift over time, and developers and their habits change, the performance of said models tends to degrade (drift) over time. Current retraining practices typically require retraining a new model from scratch on a large updated dataset when performance decay is observed, thus incurring a computational cost; also there is no continuity between the models as the past model is discarded and ignored during the new model training. Even though the literature has taken interest in online learning approaches, those have rarely been integrated and evaluated in industrial environments. This paper evaluates the use of lifelong learning (LL) for industrial use cases at Ubisoft, evaluating both the performance and the required computational effort in comparison to the retraining-from-scratch approaches commonly used by the industry. LL is used to continuously build and maintain ML-based software analytics tools using an incremental learner that progressively updates the old model using new data. To avoid so-called "catastrophic forgetting" of important older data points, we adopt a replay buffer of older data, which still allows us to drastically reduce the size of the overall training dataset, and hence model training time.
Abstract（参考訳）: 今日では、例えばコード変更のリスクを予測する機械学習(ML)モデルを用いたソフトウェア分析ツールが十分に確立されています。しかしながら、プロジェクトの目標が時間とともに変化し、開発者とその習慣が変わるにつれて、これらのモデルのパフォーマンスは時間の経過とともに低下する傾向にあります。現在のリトレーニングのプラクティスでは、パフォーマンスの低下が観測された場合、大きな更新データセット上でスクラッチから新しいモデルをトレーニングする必要があるため、計算コストが発生する。文献はオンライン学習アプローチに関心を寄せてきたが,産業環境において統合・評価されることは稀である。本稿では,ユビソフトにおける産業用ユースケースにおける生涯学習(LL)の活用について検討し,産業界で一般的に使用されている再学習・スクラッチ手法と比較して,性能と必要な計算労力の両方を評価した。 llは、新しいデータを使用して古いモデルを段階的に更新するインクリメンタル学習器を使用して、mlベースのソフトウェア分析ツールを継続的に構築および維持するために使用される。重要な古いデータポイントのいわゆる“破滅的忘れ”を避けるために、私たちは古いデータのリプレイバッファを採用しています。

関連論文リスト

Revisiting Replay and Gradient Alignment for Continual Pre-Training of Large Language Models [19.136589266017694]
大規模言語モデルのトレーニングは通常、大量のコーパスで事前トレーニングを行う。新しいデータは、しばしば分散シフトを引き起こし、以前に学習したタスクのパフォーマンスが低下する。この分散シフトに対処するための2つの一般的な提案、すなわちエクスペリエンスのリプレイとアライメントアライメントについて、より深く検討する。
論文参考訳（メタデータ） (2025-08-03T20:07:15Z)
Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
An Efficient Model Maintenance Approach for MLOps [14.239954811469506]
既存の機械学習モデルメンテナンスアプローチは、しばしば計算資源集約、コスト、時間消費、モデル依存である。我々は、MLOpsパイプラインの改善、新しいモデルメンテナンスアプローチ、およびMLモデルメンテナンスの課題に対処するためのSim sameity Based Model Reuse(SimReuse)ツールを提案する。 4つの時系列データセットに対する評価結果から,モデル再利用手法がモデルの性能を維持できることを示すとともに,メンテナンス時間とコストを大幅に削減できることを示した。
論文参考訳（メタデータ） (2024-12-05T23:02:02Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Temporal Knowledge Distillation for Time-Sensitive Financial Services Applications [7.1795069620810805]
異常検出は、金融犯罪検出詐欺やサイバーセキュリティなどの主要なコンプライアンスやリスク機能に頻繁に使用される。最新のデータパターンでモデルを再トレーニングすることで、急激な変更に追いつくことは、過去のパターンと現在のパターンのバランスをとる上でのプレッシャーをもたらす。提案手法は、モデル性能を改善しながら、再トレーニング時間に利点をもたらす。
論文参考訳（メタデータ） (2023-12-28T03:04:30Z)
Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文参考訳（メタデータ） (2023-12-07T07:17:24Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文参考訳（メタデータ） (2023-09-13T17:55:11Z)
Mitigating ML Model Decay in Continuous Integration with Data Drift Detection: An Empirical Study [7.394099294390271]
本研究では,CI環境におけるTCP用MLモデルのリトレーニングポイントを自動的に検出するデータドリフト検出手法の性能について検討する。我々はHellinger距離を用いて入力データの値と分布の変化を同定し、これらの変化をMLモデルの再学習点として利用した。 Hellinger distance-based methodの実験により,再学習点の検出と関連するコストの低減に効果と効率が示された。
論文参考訳（メタデータ） (2023-05-22T05:55:23Z)
Robustness-preserving Lifelong Learning via Dataset Condensation [11.83450966328136]
「破滅的忘れ」とは、新しいデータよりもモデルの精度が向上し、以前のデータよりも精度が保たれるという悪名高いジレンマを指す。本稿では,現在のデータの「コアセット」を決定するために,現代の二段階最適化手法を活用する新しいメモリ再生LL戦略を提案する。結果の LL フレームワークを 'Data-Efficient Robustness-Preserving LL' (DERPLL) と呼ぶ。実験の結果, DERPLLは従来のコアセット誘導LLベースラインよりも優れていた。
論文参考訳（メタデータ） (2023-03-07T19:09:03Z)
Effective and Efficient Training for Sequential Recommendation using Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文参考訳（メタデータ） (2022-07-06T13:06:31Z)
Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning [65.268245109828]
視覚、言語、音声などのデータに富む領域では、ディープラーニングが高性能なタスク固有モデルを提供するのが一般的である。リソース制限されたドメインでのディープラーニングは、(i)限られたデータ、(ii)制約付きモデル開発コスト、(iii)効果的な微調整のための適切な事前学習モデルの欠如など、多くの課題に直面している。モデル再プログラミングは、ソースドメインから十分に訓練されたモデルを再利用して、モデル微調整なしでターゲットドメインのタスクを解くことで、リソース効率のよいクロスドメイン機械学習を可能にする。
論文参考訳（メタデータ） (2022-02-22T02:33:54Z)
Passive learning to address nonstationarity in virtual flow metering applications [0.0]
本稿では,定常仮想フローメータの予測精度を維持するために,学習手法の適用方法について検討する。周期的バッチ学習とオンライン学習という2つの受動的学習法を、様々なキャリブレーション周波数で応用し、仮想フローメーターを訓練する。第1に、頻繁な到着測定が存在する場合、頻繁なモデル更新は、時間とともに優れた予測性能を保ち、第2に、間欠的かつ頻繁な到着測定が存在する場合、頻繁な更新は、性能の精度を高めるために不可欠である。
論文参考訳（メタデータ） (2022-02-07T14:42:00Z)
Lambda Learner: Fast Incremental Learning on Data Streams [5.543723668681475]
本稿では,データストリームからのミニバッチに対するインクリメンタル更新によるモデルトレーニングのための新しいフレームワークを提案する。提案するフレームワークのモデルでは,オフラインデータに基づいてトレーニングされた周期的に更新されたモデルを推定し,モデル更新が時間に敏感な場合,性能が向上することを示す。我々は、大規模ソーシャルネットワークのためのスポンサー付きコンテンツプラットフォームに大規模な展開を提示する。
論文参考訳（メタデータ） (2020-10-11T04:00:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。