Fugu-MT 論文翻訳(概要): Unboxing Default Argument Breaking Changes in 1 + 2 Data Science Libraries

論文の概要: Unboxing Default Argument Breaking Changes in 1 + 2 Data Science Libraries

arxiv url: http://arxiv.org/abs/2408.05129v1
Date: Fri, 9 Aug 2024 15:38:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 15:27:33.590662
Title: Unboxing Default Argument Breaking Changes in 1 + 2 Data Science Libraries
Title（参考訳）: データサイエンスライブラリのデフォルト引数のアンボックスによる変更
Authors: João Eduardo Montandon, Luciana Lourdes Silva, Cristiano Politowski, Daniel Prates, Arthur de Brito Bonifácio, Ghizlane El Boussaidi,
Abstract要約: データサイエンス(DS)は現代のソフトウェアの基礎となり、企業サービスを改善するためにデータ駆動型決定を可能にする。データサイエンティストは、使用をシンプルにするためにデフォルト値に頼る。その結果、これらのデフォルト値は時間とともに変化し、デフォルト引数のブレークング・チェンジ(DABC)として定義された特定のタイプの破壊的変更につながることが判明した。この研究は、データサイエンスタスクで頻繁に使用される3つのPythonライブラリで93のDABCを明らかにしている。
参考スコア（独自算出の注目度）: 1.8815104675093404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data Science (DS) has become a cornerstone for modern software, enabling data-driven decisions to improve companies services. Following modern software development practices, data scientists use third-party libraries to support their tasks. As the APIs provided by these tools often require an extensive list of arguments to be set up, data scientists rely on default values to simplify their usage. It turns out that these default values can change over time, leading to a specific type of breaking change, defined as Default Argument Breaking Change (DABC). This work reveals 93 DABCs in three Python libraries frequently used in Data Science tasks -- Scikit Learn, NumPy, and Pandas -- studying their potential impact on more than 500K client applications. We find out that the occurrence of DABCs varies significantly depending on the library; 35% of Scikit Learn clients are affected, while only 0.13% of NumPy clients are impacted. The main reason for introducing DABCs is to enhance API maintainability, but they often change the function's behavior. We discuss the importance of managing DABCs in third-party DS libraries and provide insights for developers to mitigate the potential impact of these changes in their applications.
Abstract（参考訳）: データサイエンス(DS)は現代のソフトウェアの基礎となり、企業サービスを改善するためにデータ駆動型決定を可能にする。現代のソフトウェア開発のプラクティスに従って、データサイエンティストは、タスクをサポートするためにサードパーティのライブラリを使用します。これらのツールが提供するAPIは、設定する引数の広範なリストを必要とすることが多いため、データサイエンティストは、使用を単純化するためにデフォルトの値に依存する。これらのデフォルト値は時間とともに変更可能であることが判明し、DABC(Deefault Argument Breaking Change)として定義された特定のタイプの破壊的変更につながることが判明した。この研究は、データサイエンスタスク(Scikit Learn、NumPy、Pandas)で頻繁に使用される3つのPythonライブラリにおいて、93のDABCが500万以上のクライアントアプリケーションに対する潜在的な影響を研究していることを明らかにした。 35%のScikit Learnクライアントが影響を受ける一方、NumPyクライアントは0.13%しか影響しない。 DABCを導入した主な理由は、APIの保守性を高めることであるが、関数の振る舞いを変えることが多い。サードパーティDSライブラリにおけるDABCの管理の重要性について論じ、開発者がアプリケーションにおけるこれらの変更の潜在的影響を軽減するための洞察を提供する。

関連論文リスト

SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization [52.635237306338574]
我々は,NumPyライブラリとそのAPIドキュメントをランダムな識別子を持つ擬似ノーベルパッケージに難読化する診断環境であるSE-Benchを紹介する。エージェントはこのパッケージを内部化するように訓練され、ドキュメントにアクセスせずに単純なコーディングタスクで評価される。本研究は,(1)参考資料を用いた学習が保持を阻害するオープンブックパラドックス,(2)知識圧縮を重みに強制する「クローズドブックトレーニング」,(2)標準RLがPPOクリッピングと負の勾配によって新たな知識を完全に内部化するのに失敗するRLギャップ,(3)内部化,証明モデルのためのセルフプレイの実現可能性,の3つの知見を明らかにする。
論文参考訳（メタデータ） (2026-02-04T17:58:32Z)
Detecting and Fixing API Misuses of Data Science Libraries Using Large Language Models [0.6958509696068848]
本稿では,データサイエンスライブラリのAPI誤用を検出し,修正するためのLCMベースのアプローチであるDSCHECKERを紹介する。 APIの誤用の検出と修正に有用な2つの重要な情報、すなわちAPIディレクティブとデータ情報を特定します。ドシェッカー剤は48.65パーセントのF1スコアを検出でき、誤用の39.47パーセントを修正している。
論文参考訳（メタデータ） (2025-09-29T18:30:02Z)
Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文参考訳（メタデータ） (2025-09-11T07:07:11Z)
IntenTest: Stress Testing for Intent Integrity in API-Calling LLM Agents [9.46115420774436]
LLMエージェントの意図的整合性違反を明らかにするための,API中心のストレステストフレームワークであるIntenTestを紹介した。 IntenTestはツールキットのドキュメンテーションに基づいて現実的なタスクを生成し、ターゲットの突然変異を適用して微妙なエージェントエラーを露呈する。 IntenTestは、意図的整合性違反を効果的に発見し、エラー検出率とクエリ効率の両方において、ベースラインを著しく上回ります。
論文参考訳（メタデータ） (2025-06-09T08:09:08Z)
Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory [52.44029486173232]
Dynamic Cheatsheet(DC)は、永続的で進化するメモリを備えたブラックボックス言語モデルを提供する軽量フレームワークである。 DCは、蓄積した戦略、コードスニペット、および推論時に一般的な問題解決の洞察をモデルが保存し再利用することを可能にする。このテストタイム学習は、明確な地味なラベルや人間のフィードバックを必要とせずに、幅広いタスクのパフォーマンスを大幅に向上させる。
論文参考訳（メタデータ） (2025-04-10T17:57:33Z)
Unveiling Pitfalls: Understanding Why AI-driven Code Agents Fail at GitHub Issue Resolution [22.03052751722933]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文参考訳（メタデータ） (2025-03-16T06:24:51Z)
Towards Better Comprehension of Breaking Changes in the NPM Ecosystem [12.392457751450374]
我々は,NPM生態系の破壊的変化を調査するため,大規模な実証的研究を行っている。我々は381のNPMプロジェクトから明示的に文書化された破壊的変更のデータセットを構築した。我々は、JavaScriptとTypeScript固有の構文的破壊変化の分類と、主要な行動的破壊変化の分類を生成する。
論文参考訳（メタデータ） (2024-08-26T17:18:38Z)
Impact of the Availability of ChatGPT on Software Development: A Synthetic Difference in Differences Estimation using GitHub Data [49.1574468325115]
ChatGPTは、ソフトウェア生産効率を向上させるAIツールである。 10万人あたりのgitプッシュ数、リポジトリ数、ユニークな開発者数に対するChatGPTの影響を見積もっています。これらの結果は、ChatGPTのようなAIツールが開発者の生産性を大幅に向上させる可能性があることを示唆している。
論文参考訳（メタデータ） (2024-06-16T19:11:15Z)
DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価するこのモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文参考訳（メタデータ） (2024-03-29T22:59:34Z)
User Strategization and Trustworthy Algorithms [81.82279667028423]
ユーザストラテジゼーションがプラットフォームを短期間で支援できることが示されています。そして、それがプラットフォームのデータを破壊し、最終的に反実的な決定を下す能力を損なうことを示します。
論文参考訳（メタデータ） (2023-12-29T16:09:42Z)
Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。 PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文参考訳（メタデータ） (2023-05-19T10:01:55Z)
Rethinking People Analytics With Inverse Transparency by Design [57.67333075002697]
我々は、デザインによる逆透過性(inverse transparency)と呼ぶ、労働分析のための新しい設計手法を提案する。アーキテクチャの変更はコア機能を阻害することなく行われます。我々は、デザインによる逆透明性は、受け入れられ、責任ある人々の分析を実現するための有望なアプローチである、と結論付けている。
論文参考訳（メタデータ） (2023-05-16T21:37:35Z)
Transactional Python for Durable Machine Learning: Vision, Challenges, and Feasibility [5.669983975369642]
Pythonアプリケーションは、トレーニングされたモデルや抽出された機能などの重要なデータを失う可能性がある。本稿では,ユーザプログラムやPythonカーネルにコード修正を加えることなくDARTを提供するトランザクショナルPythonのビジョンについて述べる。公開PyTorchおよびScikit-learnアプリケーションによる概念実証実装の評価は、DARTが1.5%～15.6%のオーバーヘッドで提供可能であることを示している。
論文参考訳（メタデータ） (2023-05-15T16:27:09Z)
Learning Instructions with Unlabeled Data for Zero-Shot Cross-Task Generalization [68.91386402390403]
本研究では,学習中の命令をよりよく活用するために,Unlabeled Data Augmented Instruction Tuning (UDIT)を提案する。タスクやデータセットのさまざまなシナリオにおいて,UDITの有効性を示すための広範な実験を行う。
論文参考訳（メタデータ） (2022-10-17T15:25:24Z)
Early Detection of Security-Relevant Bug Reports using Machine Learning: How Far Are We? [6.438136820117887]
典型的なメンテナンスシナリオでは、セキュリティ関連バグレポートは、修正パッチを作成する際に開発チームによって優先される。オープンなセキュリティ関連バグレポートは、攻撃者がゼロデイ攻撃を実行するために活用できる機密情報の重大な漏洩になる可能性がある。近年,機械学習に基づくセキュリティ関連バグレポートの検出手法が,有望な性能で報告されている。
論文参考訳（メタデータ） (2021-12-19T11:30:29Z)
Metadata Shaping: Natural Language Annotations for the Tail [4.665656172490747]
言語モデル(LM)は目覚ましい進歩を遂げているが、訓練データから稀な言語パターンへの一般化に苦慮している。本稿では,情報理論の指標に基づく例に,エンティティ記述やカテゴリタグなどの手軽に利用できるメタデータを付加する手法を提案する。 LMの変更はないが、メタデータの整形はBERTベースラインを5.3F1ポイントまで越え、最先端の結果と競合する。
論文参考訳（メタデータ） (2021-10-16T01:00:47Z)
Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。 knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。 2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文参考訳（メタデータ） (2021-04-16T15:24:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。