論文の概要: Transactional Python for Durable Machine Learning: Vision, Challenges,
and Feasibility
- arxiv url: http://arxiv.org/abs/2305.08770v1
- Date: Mon, 15 May 2023 16:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 13:47:25.511769
- Title: Transactional Python for Durable Machine Learning: Vision, Challenges,
and Feasibility
- Title(参考訳): 耐久性のある機械学習のためのトランザクションPython:ビジョン、チャレンジ、実現可能性
- Authors: Supawit Chockchowwat, Zhaoheng Li, Yongjoo Park
- Abstract要約: Pythonアプリケーションは、トレーニングされたモデルや抽出された機能などの重要なデータを失う可能性がある。
本稿では,ユーザプログラムやPythonカーネルにコード修正を加えることなくDARTを提供するトランザクショナルPythonのビジョンについて述べる。
公開PyTorchおよびScikit-learnアプリケーションによる概念実証実装の評価は、DARTが1.5%~15.6%のオーバーヘッドで提供可能であることを示している。
- 参考スコア(独自算出の注目度): 5.669983975369642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In machine learning (ML), Python serves as a convenient abstraction for
working with key libraries such as PyTorch, scikit-learn, and others. Unlike
DBMS, however, Python applications may lose important data, such as trained
models and extracted features, due to machine failures or human errors, leading
to a waste of time and resources. Specifically, they lack four essential
properties that could make ML more reliable and user-friendly -- durability,
atomicity, replicability, and time-versioning (DART).
This paper presents our vision of Transactional Python that provides DART
without any code modifications to user programs or the Python kernel, by
non-intrusively monitoring application states at the object level and
determining a minimal amount of information sufficient to reconstruct a whole
application. Our evaluation of a proof-of-concept implementation with public
PyTorch and scikit-learn applications shows that DART can be offered with
overheads ranging 1.5%--15.6%.
- Abstract(参考訳): 機械学習(ML)では、PythonはPyTorchやScikit-learnといった主要なライブラリを扱うための便利な抽象化として機能する。
しかしdbmsとは異なり、pythonアプリケーションは、マシンの故障やヒューマンエラーによって、トレーニングされたモデルや抽出された機能などの重要なデータを失う可能性があるため、時間とリソースが浪費される。
具体的には、mlをより信頼性とユーザフレンドリにするための4つの重要な特性、すなわち耐久性、アトミック性、再現性、時間バージョニング(dart)が欠如している。
本稿では、オブジェクトレベルでアプリケーションの状態を非侵襲的に監視し、アプリケーション全体を再構築するのに十分な最小限の情報を決定することによって、ユーザプログラムやPythonカーネルにコード修正を加えることなくDARTを提供するトランザクションPythonのビジョンを示す。
公開PyTorchおよびScikit-learnアプリケーションによる概念実証実装の評価は、DARTが1.5%~15.6%のオーバーヘッドで提供可能であることを示している。
関連論文リスト
- forester: A Tree-Based AutoML Tool in R [0.0]
ForesterはオープンソースのAutoMLパッケージで、Rで実装され、高品質なツリーベースのモデルをトレーニングする。
バイナリとマルチクラスの分類、回帰、部分生存分析タスクを完全にサポートする。
データ品質に関する問題を検出し、前処理パイプラインを準備し、ツリーベースのモデルのトレーニングとチューニングを行い、結果を評価し、さらなる分析のためにレポートを作成することができる。
論文 参考訳(メタデータ) (2024-09-07T10:39:10Z) - A Comprehensive Guide to Combining R and Python code for Data Science, Machine Learning and Reinforcement Learning [42.350737545269105]
機械学習、ディープラーニング、強化学習プロジェクトを構築するために、PythonのScikit-learn、pytorch、OpenAIのジムライブラリを簡単に実行する方法を示します。
論文 参考訳(メタデータ) (2024-07-19T23:01:48Z) - pyvene: A Library for Understanding and Improving PyTorch Models via
Interventions [79.72930339711478]
$textbfpyvene$は、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースライブラリである。
私たちは、$textbfpyvene$が、ニューラルモデルへの介入を実行し、他のモデルとインターバルされたモデルを共有するための統一されたフレームワークを提供する方法を示します。
論文 参考訳(メタデータ) (2024-03-12T16:46:54Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Repairing Bugs in Python Assignments Using Large Language Models [9.973714032271708]
本稿では,プログラム代入のためのAPRシステムを構築するために,コード上で訓練された大規模言語モデルを提案する。
本システムでは,複数モーダルプロンプト,反復クエリ,テストケースベースの数ショット選択,プログラムチャンキングを組み合わせることで,構文的および意味的誤りを解消することができる。
我々は,286の実際の学生プログラム上でMMAPRを評価し,最新のPython構文修復エンジン,BIFI,最新のPython意味修復エンジンを組み合わせたベースラインであるRefactoryと比較した。
論文 参考訳(メタデータ) (2022-09-29T15:41:17Z) - problexity -- an open-source Python library for binary classification
problem complexity assessment [0.0]
分類問題の複雑性評価は、教師付き学習領域における多くのトピックの重要な要素である。
現在、問題複雑性尺度の計算を可能にする学術コミュニティで利用可能なツールは、C++とR言語のライブラリとしてのみ利用可能である。
本稿では,Python言語における22の複雑性尺度を推定するソフトウェアモジュールについて述べる。
論文 参考訳(メタデータ) (2022-07-14T07:32:15Z) - PyGOD: A Python Library for Graph Outlier Detection [56.33769221859135]
PyGODは、グラフデータの外れ値を検出するオープンソースライブラリである。
外れ値検出のための主要なグラフベースのメソッドを幅広くサポートしています。
PyGODはBSD 2-Clauseライセンスの下でhttps://pygod.orgとPython Package Index (PyPI)でリリースされている。
論文 参考訳(メタデータ) (2022-04-26T06:15:21Z) - PyTorchVideo: A Deep Learning Library for Video Understanding [71.89124881732015]
PyTorchVideoは、ビデオ理解タスクのためのオープンソースのディープラーニングライブラリである。
マルチモーダルデータローディング、変換、モデルを含む、ビデオ理解ツールのフルスタックをカバーする。
ライブラリはPyTorchをベースにしており、任意のトレーニングフレームワークで使用することができる。
論文 参考訳(メタデータ) (2021-11-18T18:59:58Z) - Scikit-dimension: a Python package for intrinsic dimension estimation [58.8599521537]
この技術ノートは、固有次元推定のためのオープンソースのPythonパッケージであるtextttscikit-dimensionを紹介している。
textttscikit-dimensionパッケージは、Scikit-learnアプリケーションプログラミングインターフェイスに基づいて、既知のID推定子のほとんどを均一に実装する。
パッケージを簡潔に記述し、実生活と合成データにおけるID推定手法の大規模(500以上のデータセット)ベンチマークでその使用を実証する。
論文 参考訳(メタデータ) (2021-09-06T16:46:38Z) - DoubleML -- An Object-Oriented Implementation of Double Machine Learning
in Python [1.4911092205861822]
DoubleMLはオープンソースのPythonライブラリで、Chernozhukovらのダブル機械学習フレームワークを実装している。
パラメータの推定が機械学習手法に基づく場合、因果パラメータの統計的推測に有効な機能を含む。
このパッケージはMITライセンスで配布されており、科学的なPythonエコシステムのコアライブラリに依存している。
論文 参考訳(メタデータ) (2021-04-07T16:16:39Z) - OPFython: A Python-Inspired Optimum-Path Forest Classifier [68.8204255655161]
本稿では,OPFythonと表記されるPythonベースのOptimum-Path Forestフレームワークを提案する。
OPFythonはPythonベースのライブラリなので、C言語よりもフレンドリーな環境とプロトタイピングの作業スペースを提供する。
論文 参考訳(メタデータ) (2020-01-28T15:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。