論文の概要: Unboxing Default Argument Breaking Changes in 1 + 2 Data Science Libraries
- arxiv url: http://arxiv.org/abs/2408.05129v1
- Date: Fri, 9 Aug 2024 15:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:27:33.590662
- Title: Unboxing Default Argument Breaking Changes in 1 + 2 Data Science Libraries
- Title(参考訳): データサイエンスライブラリのデフォルト引数のアンボックスによる変更
- Authors: João Eduardo Montandon, Luciana Lourdes Silva, Cristiano Politowski, Daniel Prates, Arthur de Brito Bonifácio, Ghizlane El Boussaidi,
- Abstract要約: データサイエンス(DS)は現代のソフトウェアの基礎となり、企業サービスを改善するためにデータ駆動型決定を可能にする。
データサイエンティストは、使用をシンプルにするためにデフォルト値に頼る。
その結果、これらのデフォルト値は時間とともに変化し、デフォルト引数のブレークング・チェンジ(DABC)として定義された特定のタイプの破壊的変更につながることが判明した。
この研究は、データサイエンスタスクで頻繁に使用される3つのPythonライブラリで93のDABCを明らかにしている。
- 参考スコア(独自算出の注目度): 1.8815104675093404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data Science (DS) has become a cornerstone for modern software, enabling data-driven decisions to improve companies services. Following modern software development practices, data scientists use third-party libraries to support their tasks. As the APIs provided by these tools often require an extensive list of arguments to be set up, data scientists rely on default values to simplify their usage. It turns out that these default values can change over time, leading to a specific type of breaking change, defined as Default Argument Breaking Change (DABC). This work reveals 93 DABCs in three Python libraries frequently used in Data Science tasks -- Scikit Learn, NumPy, and Pandas -- studying their potential impact on more than 500K client applications. We find out that the occurrence of DABCs varies significantly depending on the library; 35% of Scikit Learn clients are affected, while only 0.13% of NumPy clients are impacted. The main reason for introducing DABCs is to enhance API maintainability, but they often change the function's behavior. We discuss the importance of managing DABCs in third-party DS libraries and provide insights for developers to mitigate the potential impact of these changes in their applications.
- Abstract(参考訳): データサイエンス(DS)は現代のソフトウェアの基礎となり、企業サービスを改善するためにデータ駆動型決定を可能にする。
現代のソフトウェア開発のプラクティスに従って、データサイエンティストは、タスクをサポートするためにサードパーティのライブラリを使用します。
これらのツールが提供するAPIは、設定する引数の広範なリストを必要とすることが多いため、データサイエンティストは、使用を単純化するためにデフォルトの値に依存する。
これらのデフォルト値は時間とともに変更可能であることが判明し、DABC(Deefault Argument Breaking Change)として定義された特定のタイプの破壊的変更につながることが判明した。
この研究は、データサイエンスタスク(Scikit Learn、NumPy、Pandas)で頻繁に使用される3つのPythonライブラリにおいて、93のDABCが500万以上のクライアントアプリケーションに対する潜在的な影響を研究していることを明らかにした。
35%のScikit Learnクライアントが影響を受ける一方、NumPyクライアントは0.13%しか影響しない。
DABCを導入した主な理由は、APIの保守性を高めることであるが、関数の振る舞いを変えることが多い。
サードパーティDSライブラリにおけるDABCの管理の重要性について論じ、開発者がアプリケーションにおけるこれらの変更の潜在的影響を軽減するための洞察を提供する。
関連論文リスト
- Towards Better Comprehension of Breaking Changes in the NPM Ecosystem [12.392457751450374]
我々は,NPM生態系の破壊的変化を調査するため,大規模な実証的研究を行っている。
我々は381のNPMプロジェクトから明示的に文書化された破壊的変更のデータセットを構築した。
我々は、JavaScriptとTypeScript固有の構文的破壊変化の分類と、主要な行動的破壊変化の分類を生成する。
論文 参考訳(メタデータ) (2024-08-26T17:18:38Z) - Impact of the Availability of ChatGPT on Software Development: A Synthetic Difference in Differences Estimation using GitHub Data [49.1574468325115]
ChatGPTは、ソフトウェア生産効率を向上させるAIツールである。
10万人あたりのgitプッシュ数、リポジトリ数、ユニークな開発者数に対するChatGPTの影響を見積もっています。
これらの結果は、ChatGPTのようなAIツールが開発者の生産性を大幅に向上させる可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-16T19:11:15Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - User Strategization and Trustworthy Algorithms [81.82279667028423]
ユーザストラテジゼーションがプラットフォームを短期間で支援できることが示されています。
そして、それがプラットフォームのデータを破壊し、最終的に反実的な決定を下す能力を損なうことを示します。
論文 参考訳(メタデータ) (2023-12-29T16:09:42Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Rethinking People Analytics With Inverse Transparency by Design [57.67333075002697]
我々は、デザインによる逆透過性(inverse transparency)と呼ぶ、労働分析のための新しい設計手法を提案する。
アーキテクチャの変更はコア機能を阻害することなく行われます。
我々は、デザインによる逆透明性は、受け入れられ、責任ある人々の分析を実現するための有望なアプローチである、と結論付けている。
論文 参考訳(メタデータ) (2023-05-16T21:37:35Z) - Transactional Python for Durable Machine Learning: Vision, Challenges,
and Feasibility [5.669983975369642]
Pythonアプリケーションは、トレーニングされたモデルや抽出された機能などの重要なデータを失う可能性がある。
本稿では,ユーザプログラムやPythonカーネルにコード修正を加えることなくDARTを提供するトランザクショナルPythonのビジョンについて述べる。
公開PyTorchおよびScikit-learnアプリケーションによる概念実証実装の評価は、DARTが1.5%~15.6%のオーバーヘッドで提供可能であることを示している。
論文 参考訳(メタデータ) (2023-05-15T16:27:09Z) - Learning Instructions with Unlabeled Data for Zero-Shot Cross-Task
Generalization [68.91386402390403]
本研究では,学習中の命令をよりよく活用するために,Unlabeled Data Augmented Instruction Tuning (UDIT)を提案する。
タスクやデータセットのさまざまなシナリオにおいて,UDITの有効性を示すための広範な実験を行う。
論文 参考訳(メタデータ) (2022-10-17T15:25:24Z) - Early Detection of Security-Relevant Bug Reports using Machine Learning:
How Far Are We? [6.438136820117887]
典型的なメンテナンスシナリオでは、セキュリティ関連バグレポートは、修正パッチを作成する際に開発チームによって優先される。
オープンなセキュリティ関連バグレポートは、攻撃者がゼロデイ攻撃を実行するために活用できる機密情報の重大な漏洩になる可能性がある。
近年,機械学習に基づくセキュリティ関連バグレポートの検出手法が,有望な性能で報告されている。
論文 参考訳(メタデータ) (2021-12-19T11:30:29Z) - Metadata Shaping: Natural Language Annotations for the Tail [4.665656172490747]
言語モデル(LM)は目覚ましい進歩を遂げているが、訓練データから稀な言語パターンへの一般化に苦慮している。
本稿では,情報理論の指標に基づく例に,エンティティ記述やカテゴリタグなどの手軽に利用できるメタデータを付加する手法を提案する。
LMの変更はないが、メタデータの整形はBERTベースラインを5.3F1ポイントまで越え、最先端の結果と競合する。
論文 参考訳(メタデータ) (2021-10-16T01:00:47Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。