論文の概要: Git-Theta: A Git Extension for Collaborative Development of Machine
Learning Models
- arxiv url: http://arxiv.org/abs/2306.04529v1
- Date: Wed, 7 Jun 2023 15:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 13:42:47.822366
- Title: Git-Theta: A Git Extension for Collaborative Development of Machine
Learning Models
- Title(参考訳): git-theta - 機械学習モデルの共同開発のためのgitエクステンション
- Authors: Nikhil Kandpal, Brian Lester, Mohammed Muqeeth, Anisha Mascarenhas,
Monty Evans, Vishal Baskaran, Tenghao Huang, Haokun Liu, Colin Raffel
- Abstract要約: 本稿では,機械学習モデルのバージョン管理システムGit-Thetaを紹介する。
Git-Thetaは、最も広く使われているバージョン管理ソフトウェアであるGitの拡張である。
- 参考スコア(独自算出の注目度): 26.107117592578632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, most machine learning models are trained by centralized teams and
are rarely updated. In contrast, open-source software development involves the
iterative development of a shared artifact through distributed collaboration
using a version control system. In the interest of enabling collaborative and
continual improvement of machine learning models, we introduce Git-Theta, a
version control system for machine learning models. Git-Theta is an extension
to Git, the most widely used version control software, that allows fine-grained
tracking of changes to model parameters alongside code and other artifacts.
Unlike existing version control systems that treat a model checkpoint as a blob
of data, Git-Theta leverages the structure of checkpoints to support
communication-efficient updates, automatic model merges, and meaningful
reporting about the difference between two versions of a model. In addition,
Git-Theta includes a plug-in system that enables users to easily add support
for new functionality. In this paper, we introduce Git-Theta's design and
features and include an example use-case of Git-Theta where a pre-trained model
is continually adapted and modified. We publicly release Git-Theta in hopes of
kickstarting a new era of collaborative model development.
- Abstract(参考訳): 現在、ほとんどの機械学習モデルは集中型チームによってトレーニングされており、更新されることはめったにない。
対照的に、オープンソースソフトウェア開発は、バージョン管理システムを使用した分散コラボレーションを通じて、共有アーティファクトの反復的な開発を伴います。
機械学習モデルの協調的かつ継続的な改善を可能にするため、マシンラーニングモデルのバージョン管理システムであるGit-Thetaを導入する。
Git-Thetaは、最も広く使用されているバージョン管理ソフトウェアであるGitの拡張であり、コードやその他のアーティファクトと並行してモデルパラメータの変更をきめ細かい追跡を可能にする。
モデルチェックポイントをデータの塊として扱う既存のバージョン管理システムとは異なり、Git-Thetaは、チェックポイントの構造を活用して、通信効率の高い更新、自動モデルマージ、モデルの2つのバージョンの違いに関する有意義な報告をサポートする。
さらにGit-Thetaにはプラグインシステムがあり、ユーザーは新しい機能のサポートを簡単に追加できる。
本稿では,git-thetaの設計と機能を紹介するとともに,事前学習したモデルが継続的に適応・修正されるgit-thetaのユースケース例を紹介する。
Git-Thetaを公開して、コラボレーションモデル開発の新たな時代の幕開けを期待しています。
関連論文リスト
- Visual Analysis of GitHub Issues to Gain Insights [2.9051263101214566]
本稿では,課題タイムラインに関する洞察を提供するために,可視化を生成するプロトタイプWebアプリケーションを提案する。
問題のライフサイクルに焦点をあて、ユーザによる開発パターンの理解を高めるために重要な情報を記述する。
論文 参考訳(メタデータ) (2024-07-30T15:17:57Z) - Automatic Categorization of GitHub Actions with Transformers and Few-shot Learning [12.254055731378045]
GitHub Actions(GHA)は、開発者がパイプラインを作成してメンテナンスするための実用的なツールを提供するために考案されたものだ。
検索エンジンにアクションを公開するために、GitHubは開発者がそれらを1つ以上のカテゴリに手動で割り当てることを可能にする。
私たちはGitHubでアクションの可視性を高めるための実用的なソリューションであるGavelを提案する。
論文 参考訳(メタデータ) (2024-07-24T02:27:36Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。
本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。
我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文 参考訳(メタデータ) (2023-10-10T16:47:29Z) - The GitHub Development Workflow Automation Ecosystems [47.818229204130596]
大規模なソフトウェア開発は、非常に協力的な取り組みになっています。
この章では、開発ボットとGitHub Actionsのエコシステムについて解説する。
この領域における最先端技術に関する広範な調査を提供する。
論文 参考訳(メタデータ) (2023-05-08T15:24:23Z) - SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。
それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。
私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文 参考訳(メタデータ) (2023-04-21T10:00:22Z) - Learning Backward Compatible Embeddings [74.74171220055766]
バージョン更新の組込み問題と後方互換性について検討する。
後方互換性のある埋め込みの学習に基づくソリューションを開発する。
BC-Alignerと呼ばれる最良のメソッドは、複数のモデルバージョンが更新された後も、意図しないタスクとの後方互換性を維持していることを示す。
論文 参考訳(メタデータ) (2022-06-07T06:30:34Z) - FLHub: a Federated Learning model sharing service [0.7614628596146599]
機械学習モデルの共有サービスとしてフェデレートラーニングハブ(FLHub)を提案する。
FLHubを使えば、GitHubと同じように、他の開発者が開発したモデルをアップロード、ダウンロード、コントリビュートすることができる。
我々は、フォークモデルが既存のモデルよりも速くトレーニングを完了し、各フェデレートラウンドで学習がより高速に進行できることを実証した。
論文 参考訳(メタデータ) (2022-02-14T06:02:55Z) - GitEvolve: Predicting the Evolution of GitHub Repositories [31.814226661858694]
GitHubリポジトリの進化を予測するシステムであるGitEvolveを提案する。
私たちは、人気を予測するために共通の関心をモデル化することで、ユーザをグループにマップします。
提案したマルチタスクアーキテクチャは汎用的であり、他のソーシャルネットワークで情報拡散をモデル化するために拡張することができる。
論文 参考訳(メタデータ) (2020-10-09T04:32:15Z) - Student Teamwork on Programming Projects: What can GitHub logs show us? [3.764846583322767]
コンピュータサイエンス専攻のためのCS2 Javaプログラミングコースの2つの提供物で、2つのプログラミングプロジェクトからGitHubログを収集しました。
学生は毎年,2つのプロジェクト(オプションと必須の2つ)をペアで作業しました。
応募ログから学生のチームワークスタイルを自動的に特定できる。
論文 参考訳(メタデータ) (2020-08-25T20:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。