論文の概要: An Empirical Study of Challenges in Machine Learning Asset Management
- arxiv url: http://arxiv.org/abs/2402.15990v1
- Date: Sun, 25 Feb 2024 05:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:04:19.747548
- Title: An Empirical Study of Challenges in Machine Learning Asset Management
- Title(参考訳): 機械学習資産管理における課題の実証的研究
- Authors: Zhimin Zhao, Yihao Chen, Abdul Ali Bangash, Bram Adams, Ahmed E.
Hassan
- Abstract要約: 既存の研究にもかかわらず、モデルバージョニングやデータトレーサビリティ、コラボレーションといった運用上の課題には、大きな知識ギャップが残っている。
本研究の目的は,開発者フォーラムやプラットフォームから15,065件の投稿を分析し,このギャップに対処することである。
ソフトウェア依存性、モデルデプロイメント、モデルトレーニングが最も議論されている16のマクロトピックにグループ化された、資産管理の課題に関連する133のトピックを明らかにしました。
- 参考スコア(独自算出の注目度): 15.07444988262748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In machine learning (ML), efficient asset management, including ML models,
datasets, algorithms, and tools, is vital for resource optimization, consistent
performance, and a streamlined development lifecycle. This enables quicker
iterations, adaptability, reduced development-to-deployment time, and reliable
outputs. Despite existing research, a significant knowledge gap remains in
operational challenges like model versioning, data traceability, and
collaboration, which are crucial for the success of ML projects. Our study aims
to address this gap by analyzing 15,065 posts from developer forums and
platforms, employing a mixed-method approach to classify inquiries, extract
challenges using BERTopic, and identify solutions through open card sorting and
BERTopic clustering. We uncover 133 topics related to asset management
challenges, grouped into 16 macro-topics, with software dependency, model
deployment, and model training being the most discussed. We also find 79
solution topics, categorized under 18 macro-topics, highlighting software
dependency, feature development, and file management as key solutions. This
research underscores the need for further exploration of identified pain points
and the importance of collaborative efforts across academia, industry, and the
research community.
- Abstract(参考訳): 機械学習(ML)では、MLモデル、データセット、アルゴリズム、ツールを含む効率的な資産管理が、リソースの最適化、一貫したパフォーマンス、開発ライフサイクルの合理化に不可欠である。
これにより、イテレーションの迅速化、適応性、開発からデプロイまでの時間短縮、信頼性の高いアウトプットが可能になる。
既存の研究にもかかわらず、MLプロジェクトの成功に不可欠なモデルバージョニング、データトレーサビリティ、コラボレーションといった運用上の課題には、大きな知識ギャップが残っている。
本研究の目的は,開発者フォーラムやプラットフォームから15,065件の投稿を分析し,質問を分類し,BERTopicを用いて課題を抽出し,オープンカードソートやBERTopicクラスタリングによるソリューションの同定を行うことである。
我々は,アセットマネジメントの課題に関連する133のトピックを,ソフトウェアの依存性,モデル展開,モデルトレーニングなど16のマクロトピックに分類した。
また、79のソリューショントピックを見つけ、18のマクロトピックに分類し、ソフトウェア依存性、機能開発、ファイル管理を重要ソリューションとして強調します。
この研究は、特定された痛点のさらなる探究の必要性と、学界、産業、研究コミュニティにおける協力的努力の重要性を基礎としている。
関連論文リスト
- BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。
私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。
より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:54:32Z) - An Empirical Investigation on the Challenges in Scientific Workflow Systems Development [2.704899832646869]
この記事では、Stack Overflow(SO)とGitHubにおける開発者と研究者のインタラクションについて検討する。
問題を分析することで、13のトピック(例えば、エラーとバグ修正、ドキュメント、依存性)を特定し、データ構造と操作が最も難しいことを発見した。
また、データ構造や操作、タスク管理、ワークフロースケジューリングといった、SOとGitHubの共通するトピックも見つけました。
論文 参考訳(メタデータ) (2024-11-16T21:14:11Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Exploring Data Management Challenges and Solutions in Agile Software Development: A Literature Review and Practitioner Survey [4.45543024542181]
ソフトウェア製品とその開発に関連するデータを管理することは、ソフトウェアプロジェクトやアジャイルチームにとって大きな課題となる。
課題には、さまざまなソースからのデータを統合し、継続的な変更と適応の観点からデータ品質を保証することが含まれる。
論文 参考訳(メタデータ) (2024-02-01T10:07:12Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。