論文の概要: Pitfalls in Machine Learning Research: Reexamining the Development Cycle
- arxiv url: http://arxiv.org/abs/2011.02832v2
- Date: Wed, 18 Aug 2021 14:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:57:34.557853
- Title: Pitfalls in Machine Learning Research: Reexamining the Development Cycle
- Title(参考訳): 機械学習研究の落とし穴:開発サイクルの再検討
- Authors: Stella Biderman and Walter J. Scheirer
- Abstract要約: 我々は,アルゴリズム設計からデータ収集,モデル評価に至るまで,機械学習プロセスに従う。
ケーススタディでは、これらの落とし穴が実際にどのように発生し、どのように改善されるかを強調しています。
- 参考スコア(独自算出の注目度): 13.752754339302461
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning has the potential to fuel further advances in data science,
but it is greatly hindered by an ad hoc design process, poor data hygiene, and
a lack of statistical rigor in model evaluation. Recently, these issues have
begun to attract more attention as they have caused public and embarrassing
issues in research and development. Drawing from our experience as machine
learning researchers, we follow the machine learning process from algorithm
design to data collection to model evaluation, drawing attention to common
pitfalls and providing practical recommendations for improvements. At each
step, case studies are introduced to highlight how these pitfalls occur in
practice, and where things could be improved.
- Abstract(参考訳): 機械学習はデータサイエンスのさらなる進歩を後押しする可能性があるが、アドホックな設計プロセス、データ衛生の貧弱、そしてモデル評価における統計的厳密さの欠如により、大きな障害となる。
近年,これらの課題は研究・開発において公然と恥ずかしい問題を引き起こしており,注目が集まっている。
機械学習研究者としての経験から、私たちはアルゴリズム設計からデータ収集、モデル評価、共通の落とし穴への注意、改善のための実践的な推奨まで、機械学習プロセスに従っています。
各ステップでケーススタディを導入して、これらの落とし穴が実際にどのように発生し、どのように改善されるかを強調します。
関連論文リスト
- RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。
訓練されたモデルからこれらのデータポイントを「消去」することを目的とした、多くの機械学習手法が提案されている。
以下に示す次元に基づいて,機械学習のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - "Forgetting" in Machine Learning and Beyond: A Survey [0.0]
この調査は、さまざまな機械学習サブフィールドにまたがる、忘れることの利点とその応用に焦点を当てる。
本稿では,機械学習モデルへの忘れるメカニズムの統合に関する現状の課題,今後の方向性,倫理的考察について論じる。
論文 参考訳(メタデータ) (2024-05-31T05:10:30Z) - AI Competitions and Benchmarks: Dataset Development [42.164845505628506]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。
データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。
次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文 参考訳(メタデータ) (2024-04-15T12:01:42Z) - Enhancing Generative Class Incremental Learning Performance with Model Forgetting Approach [50.36650300087987]
本研究は, ジェネレーティブ・クラス・インクリメンタル・ラーニング(GCIL, Generative Class Incremental Learning)への新たなアプローチを提案する。
我々は, 忘れる機構の統合により, 新たな知識獲得におけるモデルの性能が著しく向上することを発見した。
論文 参考訳(メタデータ) (2024-03-27T05:10:38Z) - Pseudo Replay-based Class Continual Learning for Online New Category Anomaly Detection in Additive Manufacturing [5.012204041812572]
本稿では,新しい擬似リプレイ型連続学習フレームワークを開発する。
クラスインクリメンタル学習とオーバーサンプリングベースのデータ生成を統合している。
提案手法の有効性を3つのケーススタディで検証した。
論文 参考訳(メタデータ) (2023-12-05T04:43:23Z) - Addressing computational challenges in physical system simulations with
machine learning [0.0]
シミュレーションを利用して様々な物理システムやプロセスを調べる研究者を支援する機械学習ベースのデータジェネレータフレームワークを提案する。
まず、シミュレーション結果を予測するために、限られたシミュレートされたデータセットを使用して教師付き予測モデルをトレーニングする。
その後、強化学習エージェントを訓練し、教師付きモデルを利用して正確なシミュレーションライクなデータを生成する。
論文 参考訳(メタデータ) (2023-05-16T17:31:50Z) - Learnware: Small Models Do Big [69.88234743773113]
自然言語処理やコンピュータビジョンの応用で目覚ましい成果を上げてきた、一般的なビッグモデルパラダイムは、これらの問題にまだ対応していないが、炭素排出量の深刻な源となっている。
この記事では、マシンラーニングモデルをスクラッチから構築する必要がないようにするための学習ソフトウェアパラダイムの概要を紹介します。
論文 参考訳(メタデータ) (2022-10-07T15:55:52Z) - Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。
本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文 参考訳(メタデータ) (2022-09-05T16:48:34Z) - Knowledge as Invariance -- History and Perspectives of
Knowledge-augmented Machine Learning [69.99522650448213]
機械学習の研究は転換点にある。
研究の関心は、高度にパラメータ化されたモデルのパフォーマンス向上から、非常に具体的なタスクへとシフトしている。
このホワイトペーパーは、機械学習研究におけるこの新興分野の紹介と議論を提供する。
論文 参考訳(メタデータ) (2020-12-21T15:07:19Z) - Towards CRISP-ML(Q): A Machine Learning Process Model with Quality
Assurance Methodology [53.063411515511056]
本稿では,機械学習アプリケーション開発のためのプロセスモデルを提案する。
第1フェーズでは、データの可用性がプロジェクトの実現可能性に影響を与えることが多いため、ビジネスとデータの理解が結合されます。
第6フェーズでは、機械学習アプリケーションの監視とメンテナンスに関する最先端のアプローチがカバーされている。
論文 参考訳(メタデータ) (2020-03-11T08:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。