論文の概要: Does the Tool Matter? Exploring Some Causes of Threats to Validity in Mining Software Repositories
- arxiv url: http://arxiv.org/abs/2501.15114v1
- Date: Sat, 25 Jan 2025 07:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:36.305499
- Title: Does the Tool Matter? Exploring Some Causes of Threats to Validity in Mining Software Repositories
- Title(参考訳): ツールが重要か? - ソフトウェアリポジトリのマイニングにおける脅威と妥当性を探る
- Authors: Nicole Hoess, Carlos Paradis, Rick Kazman, Wolfgang Mauerer,
- Abstract要約: 10の大規模なソフトウェアプロジェクトを抽出し分析するために、2つのツールを使用します。
同様の傾向にもかかわらず、コミット数や開発者の数のような単純なメトリクスでさえ、最大500%の違いがある。
このような大きな違いは、しばしば小さな技術的な詳細によって引き起こされる。
- 参考スコア(独自算出の注目度): 9.539825294372786
- License:
- Abstract: Software repositories are an essential source of information for software engineering research on topics such as project evolution and developer collaboration. Appropriate mining tools and analysis pipelines are therefore an indispensable precondition for many research activities. Ideally, valid results should not depend on technical details of data collection and processing. It is, however, widely acknowledged that mining pipelines are complex, with a multitude of implementation decisions made by tool authors based on their interests and assumptions. This raises the questions if (and to what extent) tools agree on their results and are interchangeable. In this study, we use two tools to extract and analyse ten large software projects, quantitatively and qualitatively comparing results and derived data to better understand this concern. We analyse discrepancies from a technical point of view, and adjust code and parametrisation to minimise replication differences. Our results indicate that despite similar trends, even simple metrics such as the numbers of commits and developers may differ by up to 500%. We find that such substantial differences are often caused by minor technical details. We show how tool-level and data post-processing changes can overcome these issues, but find they may require considerable efforts. We summarise identified causes in our lessons learned to help researchers and practitioners avoid common pitfalls, and reflect on implementation decisions and their influence in ensuring obtained data meets explicit and implicit expectations. Our findings lead us to hypothesise that similar uncertainties exist in other analysis tools, which may limit the validity of conclusions drawn in tool-centric research.
- Abstract(参考訳): ソフトウェアリポジトリは、プロジェクトの進化や開発者のコラボレーションといったトピックについて、ソフトウェア工学の研究に不可欠な情報源である。
したがって、適切な採掘ツールと分析パイプラインは多くの研究活動において必要不可欠な前提条件である。
理想的には、有効な結果はデータ収集と処理の技術的な詳細に依存してはならない。
しかし、マイニングパイプラインが複雑であることは広く認識されており、ツール作者の興味や仮定に基づいて、数多くの実装決定がなされている。
このことは、ツールが結果に合意し、交換可能であるかどうかという疑問を提起する。
本研究では,10の大規模ソフトウェアプロジェクトの抽出と分析に2つのツールを使用し,結果と導出データを定量的かつ質的に比較し,この問題をより深く理解する。
技術的観点からの相違を分析し、コードの調整とパラメータ化を行い、レプリケーションの違いを最小限に抑える。
我々の結果は、同様の傾向にもかかわらず、コミット数や開発者の数のような単純なメトリクスでさえ、最大500%の違いがあることを示している。
このような大きな違いは、しばしば小さな技術的な詳細によって引き起こされる。
ツールレベルとデータ後処理の変更がこれらの問題をいかに克服できるかを示します。
我々は、研究者や実践者が共通の落とし穴を避けるために学んだ教訓の特定原因を要約し、得られたデータが明示的で暗黙的な期待を満たすことを保証するための実装決定とその影響を反映する。
その結果,他の分析ツールに類似した不確実性が存在するという仮説が導かれ,ツール中心の研究における結論の妥当性が制限される可能性が示唆された。
関連論文リスト
- Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Efficacy of static analysis tools for software defect detection on open-source projects [0.0]
この調査では、SonarQube、PMD、Checkstyle、FindBugsといった一般的な分析ツールを使って比較を行った。
その結果,SonarQubeの欠陥検出は,他のツールと比較してかなり優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-20T19:05:32Z) - What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。
LMが使用する外部プログラムとしてツールを統一的に定義する。
各種ツールの効率を実証的に検討した。
論文 参考訳(メタデータ) (2024-03-18T17:20:07Z) - Fingerprinting and Building Large Reproducible Datasets [3.2873782624127843]
提案手法は,大規模なデータセットの作成を容易にし,その証明を確実にするツール支援手法である。
抽出プロセスに提供されたデータセットを特徴付けるユニークな指紋を定義する方法を提案する。
論文 参考訳(メタデータ) (2023-06-20T08:59:33Z) - LLM-based Interaction for Content Generation: A Case Study on the
Perception of Employees in an IT department [85.1523466539595]
本稿では,IT企業の従業員が生成ツールを使用する意図を明らかにするためのアンケート調査を行う。
以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であると認識されるほど, 意図が高くなることが示唆された。
分析の結果, 生産ツールの利用頻度は, 従業員が作業の文脈でこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-18T15:35:43Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Regressing Relative Fine-Grained Change for Sub-Groups in Unreliable
Heterogeneous Data Through Deep Multi-Task Metric Learning [0.5999777817331317]
本研究では,マルチタスク・メトリック・ラーニングの手法を実データにおけるきめ細かい変化に応用する方法について検討する。
この手法は異種データソースの処理に特化している。
論文 参考訳(メタデータ) (2022-08-11T12:57:11Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - On the impact of dataset size and class imbalance in evaluating
machine-learning-based windows malware detection techniques [0.0]
一部の研究者は、より小さなデータセットを使用し、データセットのサイズがパフォーマンスに重大な影響を与えている場合、公表された結果の比較が困難になる。
このプロジェクトは、データセットのサイズが測定された検出器の性能と関係しているかどうかを理解するために、2つの重要な目標を特定した。
結果は、高い精度のスコアが必ずしも高い実世界のパフォーマンスに必ずしも変換されないことを示唆した。
論文 参考訳(メタデータ) (2022-06-13T15:37:31Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Occams Razor for Big Data? On Detecting Quality in Large Unstructured
Datasets [0.0]
分析複雑性への新たな傾向は、科学におけるパシモニーやオッカム・ラザーの原理にとって深刻な課題である。
データクラスタリングのための計算的ビルディングブロックアプローチは、最小の計算時間で大規模な非構造化データセットを扱うのに役立つ。
このレビューは、東西の文化的な違いがビッグデータ分析の過程にどのように影響するかを結論付けている。
論文 参考訳(メタデータ) (2020-11-12T16:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。