論文の概要: Towards a Change Taxonomy for Machine Learning Systems
- arxiv url: http://arxiv.org/abs/2203.11365v1
- Date: Mon, 21 Mar 2022 21:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 14:47:50.951220
- Title: Towards a Change Taxonomy for Machine Learning Systems
- Title(参考訳): 機械学習システムにおける変化分類法に向けて
- Authors: Aaditya Bhatia and Ellis E. Eghan and Manel Grichi and William G.
Cavanagh and Zhen Ming (Jack) Jiang and Bram Adams
- Abstract要約: 本稿では1,346の機械学習(ML)研究リポジトリとその67,369のフォークに対する貢献を実証研究する。
MLリサーチレポジトリは非常にフォークされているが、フォークのうちフォークがフォークレポジトリに修正を加えたのはわずか9%だった。
539件のコントリビューションと378件の局所的(フォークオンリー)な変化の分析により,Hindle et al.の分類をMLに関連する1つの新しいトップレベル変化カテゴリに拡張した。
- 参考スコア(独自算出の注目度): 11.956073416493854
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine Learning (ML) research publications commonly provide open-source
implementations on GitHub, allowing their audience to replicate, validate, or
even extend machine learning algorithms, data sets, and metadata.
However, thus far little is known about the degree of collaboration activity
happening on such ML research repositories, in particular regarding (1) the
degree to which such repositories receive contributions from forks, (2) the
nature of such contributions (i.e., the types of changes), and (3) the nature
of changes that are not contributed back to forks, which might represent missed
opportunities. In this paper, we empirically study contributions to 1,346 ML
research repositories and their 67,369 forks, both quantitatively and
qualitatively (by building on Hindle et al.'s seminal taxonomy of code
changes). We found that while ML research repositories are heavily forked, only
9% of the forks made modifications to the forked repository. 42% of the latter
sent changes to the parent repositories, half of which (52%) were accepted by
the parent repositories. Our qualitative analysis on 539 contributed and 378
local (fork-only) changes, extends Hindle et al.'s taxonomy with one new
top-level change category related to ML (Data), and 15 new sub-categories,
including nine ML-specific ones (input data, output data, program data,
sharing, change evaluation, parameter tuning, performance, pre-processing,
model training). While the changes that are not contributed back by the forks
mostly concern domain-specific customizations and local experimentation (e.g.,
parameter tuning), the origin ML repositories do miss out on a non-negligible
15.4% of Documentation changes, 13.6% of Feature changes and 11.4% of Bug fix
changes. The findings in this paper will be useful for practitioners,
researchers, toolsmiths, and educators.
- Abstract(参考訳): 機械学習(ML)リサーチパブリッシュは一般的にGitHub上でオープンソース実装を提供しており、聴衆は機械学習アルゴリズム、データセット、メタデータを複製、検証、拡張することができる。
しかし,このようなML研究レポジトリにおけるコラボレーション活動の程度については,(1)フォークからのコントリビューションを受ける度合い,(2)そのようなコントリビューションの性質(変化の種類など),(3)フォークへのコントリビューションに寄与しない変化の性質など,現時点ではほとんど分かっていない。
本稿では,1,346のML研究レポジトリとその67,369のフォーク(Hindleらによるコード変更のセミナル分類に基づく)への貢献を実証的に研究する。
MLリサーチレポジトリは非常にフォークされているが、フォークのわずか9%がフォークレポジトリに修正を加えている。
後者の42%が親リポジトリに変更を送信し、その半数(52%)が親リポジトリに受け入れられた。
539件の質的分析と378件の局所的な変化(フォークオンリー)により、Hindle et al.の分類をML(Data)に関連する1つの新しいトップレベル変更カテゴリに拡張し、9つのML固有のカテゴリ(入力データ、出力データ、プログラムデータ、共有、変更評価、パラメータチューニング、パフォーマンス、前処理、モデルトレーニング)を含む15件のサブカテゴリを新たに導入しました。
フォークが貢献していない変更は主にドメイン固有のカスタマイズとローカルな実験(パラメータチューニングなど)に関するものであるが、オリジナルMLリポジトリはドキュメント変更の15.4%、機能変更の13.6%、バグ修正の変更の11.4%を見逃している。
本論文は,実践者,研究者,ツールスミス,教育者にとって有用である。
関連論文リスト
- How do Machine Learning Models Change? [7.543685248926161]
本研究は,Huging Face (HF) 上の5万モデルから20万件以上のコミットと1200件のリリースを,リポジトリマイニングと縦断解析の両方を用いて調査する。
コミットを分類するためにML変更分類を複製して拡張し、ベイジアンネットワークを使用してコミットとリリースのアクティビティのパターンを時間とともに明らかにします。
その結果,コミット活動はCRISP-DMなどの確立したデータサイエンス方法論と一致し,反復的改善と継続的改善が強調された。
さらに、リリースパターンは重要なアップデート、特にドキュメントにおいて、細かい変更とマイルストーンベースのリリースを区別する傾向があります。
論文 参考訳(メタデータ) (2024-11-14T18:14:32Z) - Towards Better Comprehension of Breaking Changes in the NPM Ecosystem [12.392457751450374]
我々は,NPM生態系の破壊的変化を調査するため,大規模な実証的研究を行っている。
我々は381のNPMプロジェクトから明示的に文書化された破壊的変更のデータセットを構築した。
我々は、JavaScriptとTypeScript固有の構文的破壊変化の分類と、主要な行動的破壊変化の分類を生成する。
論文 参考訳(メタデータ) (2024-08-26T17:18:38Z) - When Large Language Models Confront Repository-Level Automatic Program
Repair: How Well They Done? [13.693311241492827]
オープンソースリポジトリから124の典型的なリポジトリレベルのバグで構成される新しいベンチマークであるRepoBugsを紹介します。
GPT3.5を用いた予備実験では,RepoBugsの修復率は22.58%に過ぎなかった。
本稿では,リポジトリレベルのコード修復タスクに対して,より正確なコンテキストを提供するために,シンプルで普遍的なリポジトリレベルのコンテキスト抽出手法(RLCE)を提案する。
論文 参考訳(メタデータ) (2024-03-01T11:07:41Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - GEVO-ML: Optimizing Machine Learning Code with Evolutionary Computation [6.525197444717069]
GEVO-MLは、最適化の機会を発見し、機械学習カーネルのパフォーマンスをチューニングするためのツールである。
モデルトレーニングと予測の両方のために、GEVO-MLを2つの異なるMLワークロードでデモする。
GEVO-MLはこれらのモデルに大きな改善を加え、モデル精度が2%の緩和で90.43%の性能向上を達成した。
論文 参考訳(メタデータ) (2023-10-16T09:24:20Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - PatchMix Augmentation to Identify Causal Features in Few-shot Learning [55.64873998196191]
少ないショット学習は、十分なカテゴリをラベル付けしたデータに基づいて学習した知識を、少ない既知の情報を持つ新しいカテゴリに転送することを目的としている。
我々はPatchMixと呼ばれる新しいデータ拡張戦略を提案し、この急激な依存関係を壊すことができる。
このような拡張メカニズムが,既存のメカニズムと異なり,因果的特徴を識別可能であることを示す。
論文 参考訳(メタデータ) (2022-11-29T08:41:29Z) - Empirical observations on the effects of data transformation in machine
learning classification of geological domains [0.0]
本研究の目的は,データを用いた機械学習の学習において,データ変換が地域分類に与える影響を検討することである。
トレーニングインプットは、西オーストラリア州のピルバラ鉄鉱床から得られた調査ホールアッセイのサンプルから成っている。
調査した変換には、ログ比(ILR)、中央ログ比(CLR)、主成分分析(PCA)、独立成分分析(ICA)などがある。
その結果、異なるML分類器はこれらの変換に対して様々な感度を示し、いくつかは他よりも明らかに有利または有害であることが明らかとなった。
論文 参考訳(メタデータ) (2021-06-04T07:45:24Z) - A Taxonomy of Similarity Metrics for Markov Decision Processes [62.997667081978825]
近年、伝達学習は強化学習(RL)アルゴリズムをより効率的にすることに成功した。
本稿では,これらの指標を分類し,これまでに提案されている類似性の定義を分析する。
論文 参考訳(メタデータ) (2021-03-08T12:36:42Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - iTAML: An Incremental Task-Agnostic Meta-learning Approach [123.10294801296926]
人間は経験が成長するにつれて、新しい知識を継続的に学ぶことができる。
ディープニューラルネットワークにおける以前の学習は、新しいタスクでトレーニングされたときにすぐに消えてしまう可能性がある。
遭遇した全てのタスク間の平衡を維持するために,新しいメタラーニング手法を導入する。
論文 参考訳(メタデータ) (2020-03-25T21:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。