論文の概要: DetAIL : A Tool to Automatically Detect and Analyze Drift In Language
- arxiv url: http://arxiv.org/abs/2211.04250v1
- Date: Thu, 3 Nov 2022 19:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 23:21:53.062635
- Title: DetAIL : A Tool to Automatically Detect and Analyze Drift In Language
- Title(参考訳): DetAIL : 言語でドリフトを自動的に検出・解析するツール
- Authors: Nishtha Madaan, Adithya Manjunatha, Hrithik Nambiar, Aviral Kumar
Goel, Harivansh Kumar, Diptikalyan Saha, Srikanta Bedathur
- Abstract要約: この作業は、機械学習とディープラーニングベースのシステムが従来のソフトウェアと同じくらい信頼されていることを保証することを目的としている。
現在のシステムは、新しいデータが登場するにつれて、これらのモデルの定期的な再トレーニングに依存している。
我々は、新しいデータが起動したときに発生するデータドリフトを測定し、実際に再トレーニングが必要なときにモデルを適応的に再トレーニングできるようにすることを提案する。
- 参考スコア(独自算出の注目度): 8.968228078113189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning and deep learning-based decision making has become part of
today's software. The goal of this work is to ensure that machine learning and
deep learning-based systems are as trusted as traditional software. Traditional
software is made dependable by following rigorous practice like static
analysis, testing, debugging, verifying, and repairing throughout the
development and maintenance life-cycle. Similarly for machine learning systems,
we need to keep these models up to date so that their performance is not
compromised. For this, current systems rely on scheduled re-training of these
models as new data kicks in. In this work, we propose to measure the data drift
that takes place when new data kicks in so that one can adaptively re-train the
models whenever re-training is actually required irrespective of schedules. In
addition to that, we generate various explanations at sentence level and
dataset level to capture why a given payload text has drifted.
- Abstract(参考訳): 機械学習とディープラーニングに基づく意思決定は、今日のソフトウェアの一部となっている。
この作業の目標は、機械学習とディープラーニングベースのシステムが従来のソフトウェアと同じくらい信頼されていることを保証することだ。
従来のソフトウェアは,静的解析やテスト,デバッグ,検証,修復といった厳密なプラクティスに従って,開発やメンテナンスライフサイクルを通じて信頼される。
同様に、機械学習システムでは、パフォーマンスが損なわれないように、これらのモデルを最新に保つ必要があります。
そのため、現在のシステムは、新しいデータが入り込むにつれて、これらのモデルの定期的な再トレーニングに依存している。
本研究では,新しいデータ入力時に発生するデータドリフトを計測し,スケジュールに関係なく,実際に再トレーニングが必要な場合に適応的にモデルを再トレーニングすることを提案する。
さらに, 与えられたペイロードテキストがドリフトした理由を把握するために, 文レベルとデータセットレベルで様々な説明を生成する。
関連論文リスト
- RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。
訓練されたモデルからこれらのデータポイントを「消去」することを目的とした、多くの機械学習手法が提案されている。
以下に示す次元に基づいて,機械学習のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - How to unlearn a learned Machine Learning model ? [0.0]
機械学習モデルを学習し、その能力を視覚化するためのエレガントなアルゴリズムを提示します。
基礎となる数学的理論を解明し、所望のデータに対する未学習モデルの性能と望ましくないデータに対する無知の両方を評価するための具体的な指標を確立する。
論文 参考訳(メタデータ) (2024-10-13T17:38:09Z) - Robust Machine Learning by Transforming and Augmenting Imperfect
Training Data [6.928276018602774]
この論文は、現代の機械学習のいくつかのデータ感度を探求する。
まず、トレーニングデータで測定された事前の人間の識別をMLが符号化するのを防ぐ方法について論じる。
次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。
論文 参考訳(メタデータ) (2023-12-19T20:49:28Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - On the Costs and Benefits of Adopting Lifelong Learning for Software
Analytics -- Empirical Study on Brown Build and Risk Prediction [17.502553991799832]
本稿では,ユビソフトにおける産業用ユースケースにおける生涯学習(LL)の利用について検討する。
LLは、新しいデータを使用して古いモデルを段階的に更新するインクリメンタルラーナを使用して、MLベースのソフトウェア分析ツールを継続的に構築し、メンテナンスするために使用される。
論文 参考訳(メタデータ) (2023-05-16T21:57:16Z) - Continual-Learning-as-a-Service (CLaaS): On-Demand Efficient Adaptation
of Predictive Models [17.83007940710455]
機械学習ベースのアプリケーションを構築したい企業にとって、将来の2つのトレンドは、リアルタイムの推論と継続的な更新である。
本稿では,これらの課題に対処するため,新しいソフトウェアサービスと継続的学習・アズ・ア・サービス(CL)と呼ばれるモデル配信基盤を定義した。
オンプレミスソリューションなしで、効率的でステートフルで使いやすい方法で、データサイエンティストのためのモデル更新とバリデーションツールをサポートする。
論文 参考訳(メタデータ) (2022-06-14T16:22:54Z) - Can Bad Teaching Induce Forgetting? Unlearning in Deep Networks using an
Incompetent Teacher [6.884272840652062]
そこで本研究では,学習者・教師の知能・能力に乏しい教師を学習者・教師の枠組みで探究し,忘れがちさを誘発する手法を提案する。
有能で無能な教師からの知識は、学生に選択的に伝達され、忘れデータに関する情報を含まないモデルが得られる。
ゼロ・ナッシング(ZRF)メトリクスを導入し、未学習の手法を評価する。
論文 参考訳(メタデータ) (2022-05-17T05:13:17Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。