論文の概要: Reducing Labeling Effort in Architecture Technical Debt Detection through Active Learning and Explainable AI
- arxiv url: http://arxiv.org/abs/2603.02944v1
- Date: Tue, 03 Mar 2026 12:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.797221
- Title: Reducing Labeling Effort in Architecture Technical Debt Detection through Active Learning and Explainable AI
- Title(参考訳): アクティブラーニングと説明可能なAIによるアーキテクチャ技術的負債検出におけるラベル付けの取り組みの軽減
- Authors: Edi Sutoyo, Paris Avgeriou, Andrea Capiluppi,
- Abstract要約: Self-Admitted Technical Debt (SATD)は、自然言語のアーティファクトで開発者が明示的に認める技術的妥協を指す。
本研究では,キーワードベースのフィルタリングとアクティブラーニング,説明可能なAIを組み合わせることで,ATD検出におけるラベリングの労力を削減することに焦点を当てた。
- 参考スコア(独自算出の注目度): 4.357716629393195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Admitted Technical Debt (SATD) refers to technical compromises explicitly admitted by developers in natural language artifacts such as code comments, commit messages, and issue trackers. Among its types, Architecture Technical Debt (ATD) is particularly difficult to detect due to its abstract and context-dependent nature. Manual annotation of ATD is costly, time-consuming, and challenging to scale. This study focuses on reducing labeling effort in ATD detection by combining keyword-based filtering with active learning and explainable AI. We refined an existing dataset of 116 ATD-related Jira issues from prior work, producing 57 expert-validated items used to extract representative keywords. These were applied to identify over 103,000 candidate issues across ten open-source projects. To assess the reliability of this keyword-based filtering, we conducted a qualitative evaluation of a statistically representative sample of labeled issues. Building on this filtered dataset, we applied active learning with multiple query strategies to prioritize the most informative samples for annotation. Our results show that the Breaking Ties strategy consistently improves model performance, achieving the highest F1-score of 0.72 while reducing the annotation effort by 49\%. In order to enhance model transparency, we applied SHAP and LIME to explain the outcomes of automated ATD classification. Expert evaluation revealed that both LIME and SHAP provided reasonable explanations, with the usefulness of the explanations often depending on the relevance of the highlighted features. Notably, experts preferred LIME overall for its clarity and ease of use.
- Abstract(参考訳): Self-Admitted Technical Debt (SATD)は、コードコメント、コミットメッセージ、イシュートラッカなどの自然言語アーティファクトで開発者が明示的に認めた技術的妥協を指す。
そのタイプの中で、アーキテクチャ技術的負債(ATD)は、抽象的でコンテキストに依存した性質のため、特に検出が難しい。
ATDのマニュアルアノテーションはコストがかかり、時間がかかり、スケールが難しい。
本研究では,キーワードベースのフィルタリングとアクティブラーニング,説明可能なAIを組み合わせることで,ATD検出におけるラベリングの労力を削減することに焦点を当てた。
我々は,従来のATD関連Jira問題116件のデータセットを改良し,代表的なキーワードを抽出するために使用する57件のエキスパート検証項目を生成した。
これらは、10のオープンソースプロジェクトで103,000以上の候補問題を特定するために適用された。
このキーワードに基づくフィルタリングの信頼性を評価するために,ラベル付き問題の統計的に代表されるサンプルの質的評価を行った。
このフィルタデータセットに基づいて、複数のクエリ戦略を用いてアクティブラーニングを適用し、アノテーションの最も情報性の高いサンプルを優先順位付けした。
以上の結果から,Breaking Ties 戦略はモデル性能を継続的に改善し,F1スコアは 0.72 であり,アノテーションの労力は 49 % 削減された。
モデルの透明性を高めるため,自動ATD分類の結果を説明するためにSHAPとLIMEを適用した。
専門家による評価では、LIMEとSHAPはどちらも合理的な説明を提供しており、その説明の有用性は強調された特徴の関連性に依存することが多かった。
特に専門家は、その明快さと使いやすさのためにLIMEを全体として好んだ。
関連論文リスト
- From Retrieval to Reasoning: A Framework for Cyber Threat Intelligence NER with Explicit and Adaptive Instructions [15.710492251334792]
TTPromptは暗黙のインジェクションから明示的なインストラクションへとシフトするフレームワークである。
FIRは、最小ラベル付きデータのエラーから学習することで、LLMがガイドラインを自己定義することを可能にする。
トレーニングデータの1%しか改善されていないTTPromptは、データセット全体を微調整したモデルに対抗している。
論文 参考訳(メタデータ) (2025-12-22T14:13:01Z) - DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。
本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文 参考訳(メタデータ) (2024-12-09T08:47:05Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Truth Discovery in Sequence Labels from Crowds [12.181422057560201]
Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。
アノテーションアグリゲーションにおける既存の文献は、アノテーションは独立しており、シーケンシャルなラベルアグリゲーションタスクを扱う際の課題に直面していると仮定している。
逐次ラベリングタスクにおいて,作業者が提供するアノテーションを用いて,真理ラベルを推測する最適化手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T19:12:13Z) - Latent Opinions Transfer Network for Target-Oriented Opinion Words
Extraction [63.70885228396077]
資源豊富なレビュー評価分類データセットから低リソースタスクTOWEへ意見知識を伝達する新しいモデルを提案する。
我々のモデルは、他の最先端手法よりも優れた性能を達成し、意見の知識を伝達することなく、ベースモデルを大幅に上回る。
論文 参考訳(メタデータ) (2020-01-07T11:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。