Fugu-MT 論文翻訳(概要): Investigating Issues that Lead to Code Technical Debt in Machine Learning Systems

論文の概要: Investigating Issues that Lead to Code Technical Debt in Machine Learning Systems

arxiv url: http://arxiv.org/abs/2502.13011v1
Date: Tue, 18 Feb 2025 16:30:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:09.073133
Title: Investigating Issues that Lead to Code Technical Debt in Machine Learning Systems
Title（参考訳）: 機械学習システムにおけるコード技術的負債につながる問題の調査
Authors: Rodrigo Ximenes, Antonio Pedro Santos Alves, Tatiana Escovedo, Rodrigo Spinola, Marcos Kalinowski,
Abstract要約: 機械学習(ML)システムにおける技術的負債(TD)は、将来の再作業につながる可能性を秘めている。 SEにおけるTDへの関心が高まっているにもかかわらず、ML固有のコード関連TDの理解はいまだに探索されていない。
参考スコア（独自算出の注目度）: 1.0396117988046165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: [Context] Technical debt (TD) in machine learning (ML) systems, much like its counterpart in software engineering (SE), holds the potential to lead to future rework, posing risks to productivity, quality, and team morale. Despite growing attention to TD in SE, the understanding of ML-specific code-related TD remains underexplored. [Objective] This paper aims to identify and discuss the relevance of code-related issues that lead to TD in ML code throughout the ML workflow. [Method] The study first compiled a list of 34 potential issues contributing to TD in ML code by examining the phases of the ML workflow, their typical associated activities, and problem types. This list was refined through two focus group sessions involving nine experienced ML professionals, where each issue was assessed based on its occurrence contributing to TD in ML code and its relevance. [Results] The list of issues contributing to TD in the source code of ML systems was refined from 34 to 30, with 24 of these issues considered highly relevant. The data pre-processing phase was the most critical, with 14 issues considered highly relevant. Shortcuts in code related to typical pre-processing tasks (e.g., handling missing values, outliers, inconsistencies, scaling, rebalancing, and feature selection) often result in "patch fixes" rather than sustainable solutions, leading to the accumulation of TD and increasing maintenance costs. Relevant issues were also found in the data collection, model creation and training, and model evaluation phases. [Conclusion] We have made the final list of issues available to the community and believe it will help raise awareness about issues that need to be addressed throughout the ML workflow to reduce TD and improve the maintainability of ML code.
Abstract（参考訳）: [コンテキスト]機械学習(ML)システムにおける技術的負債(TD)は、ソフトウェアエンジニアリング(SE)と同様、将来の再作業につながる可能性を持ち、生産性、品質、チームのモラルにリスクを及ぼす。 SEにおけるTDへの関心が高まっているにもかかわらず、ML固有のコード関連TDの理解はいまだに探索されていない。 [目的]本稿は,MLワークフロー全体を通じて,MLコードのTDに繋がるコード関連の問題を識別し,議論することを目的としている。方法]MLワークフローのフェーズ,典型的関連活動,問題タイプを調べることで,MLコードのTDに寄与する34の潜在的な問題のリストを最初にまとめた。このリストは、9人の経験豊富なMLプロフェッショナルを含む2つのフォーカスグループセッションを通じて洗練され、各課題は、MLコードにおけるTDの発生とその関連性に基づいて評価された。結果]MLシステムのソースコードにおけるTDに寄与する問題のリストは34から30に改善され,そのうち24は極めて関連性が高いと考えられた。データ前処理フェーズは最も重要であり、14の問題は極めて関連性が高いと考えられていた。典型的な前処理タスクに関連するコードのショートカット(例えば、欠落した値、外れ値、不整合、スケーリング、再バランス、機能選択)は、持続的なソリューションよりも"パッチ修正"をもたらすことが多く、TDの蓄積とメンテナンスコストの増大につながる。関連する問題は、データ収集、モデル作成とトレーニング、モデル評価フェーズにもありました。結論] コミュニティが利用可能な問題の最終リストを作成し、TDの削減とMLコードの保守性向上のために、MLワークフロー全体を通して対処する必要がある問題に対する認識を高めるのに役立つと信じています。

関連論文リスト

Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
An Empirical Exploration of ChatGPT's Ability to Support Problem Formulation Tasks for Mission Engineering and a Documentation of its Performance Variability [0.0]
本稿では,大規模言語モデル(LLM)の品質と整合性について考察する。我々は、関連する参照問題、NASAの宇宙ミッション設計課題を特定し、ChatGPT-3.5のステークホルダ識別タスクの実行能力を文書化する。 LLMは人間の利害関係者の識別には有効であるが, 外部システムや環境要因の認識には不十分であることがわかった。
論文参考訳（メタデータ） (2025-02-05T17:58:23Z)
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。 ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。 2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文参考訳（メタデータ） (2024-10-06T14:59:09Z)
Maintainability Challenges in ML: A Systematic Literature Review [5.669063174637433]
本研究の目的は,機械学習ワークフローのさまざまな段階における保守性課題を特定し,合成することである。 13,000件以上の論文を審査し、56件を質的に分析した。
論文参考訳（メタデータ） (2024-08-17T13:24:15Z)
Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives [54.14429346914995]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)による複雑な問題を解決する重要な方法となっている。本稿では,LLMタスクを能力,スキル,知識の観点から再考する理論モデルであるRe-TASKフレームワークを紹介する。多様な領域にわたる実験は、Re-TASKの有効性を示す。
論文参考訳（メタデータ） (2024-08-13T13:58:23Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。 LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文参考訳（メタデータ） (2024-05-12T15:49:38Z)
PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文参考訳（メタデータ） (2024-04-29T15:02:14Z)
Knowledge-Aware Code Generation with Large Language Models [34.806454393643236]
大規模言語モデル(LLM)は、基本的なプログラミング問題においてよく機能する。しかし、多様なアルゴリズムとデータ構造スキルの使用を含む複雑なタスクを扱う場合、課題に直面する。我々はPythonプログラミングのコンテスト問題に適した知識ライブラリを開発し,知識認識コード生成の概念を紹介した。
論文参考訳（メタデータ） (2024-01-29T08:01:22Z)
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。 i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文参考訳（メタデータ） (2024-01-17T18:13:07Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Characterizing and Detecting Mismatch in Machine-Learning-Enabled Systems [1.4695979686066065]
機械学習システムの開発と展開は依然として課題だ。本論文では,エンドツーエンドのML対応システム開発における知見とその意義について報告する。
論文参考訳（メタデータ） (2021-03-25T19:40:29Z)
Understanding the Usability Challenges of Machine Learning In High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文参考訳（メタデータ） (2021-03-02T22:50:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。