論文の概要: On Interpreting the Effectiveness of Unsupervised Software Traceability with Information Theory
- arxiv url: http://arxiv.org/abs/2412.04704v1
- Date: Fri, 06 Dec 2024 01:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:52.567226
- Title: On Interpreting the Effectiveness of Unsupervised Software Traceability with Information Theory
- Title(参考訳): 情報理論による教師なしソフトウェアトレーサビリティの有効性の解釈
- Authors: David N. Palacio, Daniel Rodriguez-Cardenas, Denys Poshyvanyk, Kevin Moran,
- Abstract要約: 教師なしトレーサビリティ手法は、しばしばテキストデータの中にトレーサビリティパターンが存在すると仮定する。
我々は、トレーサビリティリンクの情報性や信頼性を測定する指標として、自己情報、相互エントロピー、相互情報(MI)を導入している。
平均MIは4.81ビット、損失は1.75ビット、ノイズは0.28ビットであり、教師なしトレーサビリティ技術の有効性には情報理論上の限界があることを示す。
- 参考スコア(独自算出の注目度): 12.390314973658466
- License:
- Abstract: Traceability is a cornerstone of modern software development, ensuring system reliability and facilitating software maintenance. While unsupervised techniques leveraging Information Retrieval (IR) and Machine Learning (ML) methods have been widely used for predicting trace links, their effectiveness remains underexplored. In particular, these techniques often assume traceability patterns are present within textual data - a premise that may not hold universally. Moreover, standard evaluation metrics such as precision, recall, accuracy, or F1 measure can misrepresent the model performance when underlying data distributions are not properly analyzed. Given that automated traceability techniques tend to struggle to establish links, we need further insight into the information limits related to traceability artifacts. In this paper, we propose an approach, TraceXplainer, for using information theory metrics to evaluate and better understand the performance (limits) of unsupervised traceability techniques. Specifically, we introduce self-information, cross-entropy, and mutual information (MI) as metrics to measure the informativeness and reliability of traceability links. Through a comprehensive replication and analysis of well-studied datasets and techniques, we investigate the effectiveness of unsupervised techniques that predict traceability links using IR/ML. This application of TraceXplainer illustrates an imbalance in typical traceability datasets where the source code has on average 1.48 more information bits (i.e., entropy) than the linked documentation. Additionally, we demonstrate that an average MI of 4.81 bits, loss of 1.75, and noise of 0.28 bits signify that there are information-theoretic limits on the effectiveness of unsupervised traceability techniques. We hope these findings spur additional research on understanding the limits and progress of traceability research.
- Abstract(参考訳): トレーサビリティは現代のソフトウェア開発の基盤であり、システムの信頼性を確保し、ソフトウェアのメンテナンスを容易にする。
Information Retrieval (IR) と Machine Learning (ML) の手法を応用した教師なしの手法がトレースリンクの予測に広く用いられているが、その効果は未検討のままである。
特に、これらのテクニックは、トレーサビリティパターンがテキストデータの中に存在していると仮定することが多い。
さらに、精度、リコール、精度、F1測定などの標準的な評価指標は、基礎となるデータ分布が適切に分析されていない場合、モデル性能を誤って表現することができる。
自動トレーサビリティ技術はリンクを確立するのに苦労する傾向があるので、トレーサビリティのアーティファクトに関連する情報限界についてさらに洞察する必要がある。
本稿では,教師なしトレーサビリティ手法の性能(限界)を評価・理解するために,情報理論メトリクスを用いたTraceXplainerを提案する。
具体的には、トレーサビリティリンクの情報性と信頼性を測定する指標として、自己情報、相互エントロピー、相互情報(MI)を紹介する。
本稿では、よく研究されたデータセットとテクニックの包括的なレプリケーションと分析を通じて、IR/MLを用いたトレーサビリティリンクを予測する教師なし手法の有効性について検討する。
このTraceXplainerの応用は、ソースコードがリンクドキュメンテーションよりも平均1.48以上の情報ビット(エントロピー)を持つ典型的なトレーサビリティデータセットの不均衡を示している。
さらに、平均MIは4.81ビット、損失は1.75ビット、ノイズは0.28ビットであり、教師なしトレーサビリティ技術の有効性には情報理論上の限界があることを示す。
これらの発見がトレーサビリティ研究の限界と進展を理解するためのさらなる研究のきっかけになることを願っている。
関連論文リスト
- TAACKIT: Track Annotation and Analytics with Continuous Knowledge Integration Tool [0.5497663232622965]
地理空間トラックの領域では、データの注釈付けと検証のためのツールが欠如しているため、迅速でアクセスしやすい機械学習アプリケーション開発が阻害される。
本稿では,地理空間軌跡データのアノテートとMLモデルの検証において重要な機能を実現するために,TAACKIT(Track and Analytics with Continuous Knowledge Integration Tool)を提案する。
航空交通分野におけるMLアプリケーション利用事例を実演し、そのデータアノテーションとモデル評価能力を説明し、アノテーションの労力削減を定量化する。
論文 参考訳(メタデータ) (2024-12-18T21:51:51Z) - Geospatial Trajectory Generation via Efficient Abduction: Deployment for Independent Testing [1.8877926393541125]
情報(A*)探索により,移動軌跡を効率的に吸収できることが示される。
私たちはまた、正確な結果を提供するだけでなく、非常に大きなシナリオにもスケールできることを示す独自の実験について報告します。
論文 参考訳(メタデータ) (2024-07-08T23:11:47Z) - Information Leakage Detection through Approximate Bayes-optimal Prediction [22.04308347355652]
情報漏洩(英: Information leakage, IL)とは、意図せず機密情報を無許可の当事者に漏らす情報である。
従来の統計手法は、ILを検出するために観測可能な情報と秘密情報の相互情報を推定することに依存している。
統計的学習理論と情報理論を用いて,ILの定量化と検出を正確に行う理論的枠組みを構築した。
論文 参考訳(メタデータ) (2024-01-25T16:15:27Z) - TRIAD: Automated Traceability Recovery based on Biterm-enhanced
Deduction of Transitive Links among Artifacts [53.92293118080274]
トレーサビリティにより、ステークホルダは、ソフトウェアライフサイクル全体で導入されたソフトウェアアーティファクト間のトレースリンクを抽出し、理解することができます。
ほとんどの場合、Information Retrieval (IR) など、ソフトウェアアーティファクト間のテキストの類似性に依存している。
論文 参考訳(メタデータ) (2023-12-28T06:44:24Z) - Data AUDIT: Identifying Attribute Utility- and Detectability-Induced
Bias in Task Models [8.420252576694583]
医用画像データセットの厳密で定量的なスクリーニングのための第1の手法を提案する。
提案手法は,データセット属性に関連するリスクを,検出性と実用性の観点から分解する。
本手法を用いて, ほぼ知覚不能なバイアス誘発アーティファクトを確実に同定するスクリーニング手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T16:50:15Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Unsupervised Abnormal Traffic Detection through Topological Flow
Analysis [1.933681537640272]
悪意のある流れの トポロジカル接続コンポーネントは 利用されていない
本稿では,教師なし異常検出アルゴリズムにおける接続グラフ機能の利用を容易にするための簡易な手法を提案する。
論文 参考訳(メタデータ) (2022-05-14T18:52:49Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - Graph Representation Learning via Graphical Mutual Information
Maximization [86.32278001019854]
本稿では,入力グラフとハイレベルな隠蔽表現との相関を測る新しい概念であるGMIを提案する。
我々は,グラフニューラルエンコーダの入力と出力の間でGMIを最大化することで訓練された教師なし学習モデルを開発する。
論文 参考訳(メタデータ) (2020-02-04T08:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。