論文の概要: Toward Explaining Large Language Models in Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2512.20328v1
- Date: Tue, 23 Dec 2025 12:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.877296
- Title: Toward Explaining Large Language Models in Software Engineering Tasks
- Title(参考訳): ソフトウェア工学の課題における大規模言語モデルの説明に向けて
- Authors: Antonio Vitale, Khai-Nguyen Nguyen, Denys Poshyvanyk, Rocco Oliveto, Simone Scalabrino, Antonio Mastropaolo,
- Abstract要約: 大規模言語モデルにおけるブラックボックスの性質は、ハイテイクで安全クリティカルなドメインで採用する上で、依然として大きな障壁となっている。
ソフトウェアエンジニアリングのための説明可能なAIへの関心は高まっているが、既存のメソッドには、実践者がSEアーティファクトについてどのように考えるかに沿った、ドメイン固有の説明がない。
ソフトウェアエンジニアリングタスクに適した、最初の完全自動化されたモデルに依存しない説明可能性フレームワークであるFeatureSHAPを紹介します。
- 参考スコア(独自算出の注目度): 15.334228892784838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in Large Language Models (LLMs) has substantially advanced the automation of software engineering (SE) tasks, enabling complex activities such as code generation and code summarization. However, the black-box nature of LLMs remains a major barrier to their adoption in high-stakes and safety-critical domains, where explainability and transparency are vital for trust, accountability, and effective human supervision. Despite increasing interest in explainable AI for software engineering, existing methods lack domain-specific explanations aligned with how practitioners reason about SE artifacts. To address this gap, we introduce FeatureSHAP, the first fully automated, model-agnostic explainability framework tailored to software engineering tasks. Based on Shapley values, FeatureSHAP attributes model outputs to high-level input features through systematic input perturbation and task-specific similarity comparisons, while remaining compatible with both open-source and proprietary LLMs. We evaluate FeatureSHAP on two bi-modal SE tasks: code generation and code summarization. The results show that FeatureSHAP assigns less importance to irrelevant input features and produces explanations with higher fidelity than baseline methods. A practitioner survey involving 37 participants shows that FeatureSHAP helps practitioners better interpret model outputs and make more informed decisions. Collectively, FeatureSHAP represents a meaningful step toward practical explainable AI in software engineering. FeatureSHAP is available at https://github.com/deviserlab/FeatureSHAP.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学(SE)タスクの自動化を大幅に進歩させ、コード生成やコードの要約といった複雑な活動を可能にする。
しかし、LCMのブラックボックスの性質は、信頼性、説明責任、効果的な人的監督に説明責任と透明性が不可欠である、ハイテイクで安全クリティカルな領域において採用する上で大きな障壁となっている。
ソフトウェアエンジニアリングのための説明可能なAIへの関心は高まっているが、既存のメソッドには、実践者がSEアーティファクトについてどのように考えるかに沿った、ドメイン固有の説明がない。
このギャップに対処するために、ソフトウェアエンジニアリングタスクに適した、最初の完全に自動化されたモデルに依存しない説明可能性フレームワークであるFeatureSHAPを紹介します。
Shapley の値に基づいて、FeatureSHAP 属性モデルは、オープンソースの LLM とプロプライエタリな LLM の両方との互換性を維持しながら、系統的な入力摂動とタスク固有の類似性比較を通じて高レベルの入力特徴に出力する。
コード生成とコード要約という2つのモードのSEタスクでFeatureSHAPを評価する。
その結果,FeatureSHAPは,無関係な入力特徴に対して重要度が低く,ベースライン法よりも忠実度が高い説明文を生成することがわかった。
37人の参加者が参加した実践的調査によると、FeatureSHAPは、実践者がモデルのアウトプットをよりよく解釈し、より深い決定を下すのに役立つ。
FeatureSHAPは、ソフトウェア工学における実用的な説明可能なAIへの重要なステップである。
FeatureSHAPはhttps://github.com/deviserlab/FeatureSHAPで入手できる。
関連論文リスト
- Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。
ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。
SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文 参考訳(メタデータ) (2025-06-12T15:52:32Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders [8.1201445044499]
LLMの推論の背後にある内部メカニズムは未解明のままである。
仮説をテストするためにスパースオートエンコーダを使用します。
私たちの研究は、LLMにおける推論の機械的理解に向けた第一歩を提供します。
論文 参考訳(メタデータ) (2025-03-24T16:54:26Z) - SENAI: Towards Software Engineering Native Generative Artificial Intelligence [3.915435754274075]
本稿では,ソフトウェア工学の知識を大規模言語モデルに統合することについて議論する。
本研究の目的は,LLMが単なる機能的精度を超えて生成タスクを実行できる新しい方向を提案することである。
ソフトウェアエンジニアリング ネイティブな生成モデルは、現在のモデルに存在する欠点を克服するだけでなく、現実世界のソフトウェアエンジニアリングを扱うことができる次世代の生成モデルへの道を開くでしょう。
論文 参考訳(メタデータ) (2025-03-19T15:02:07Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Semantic-Guided RL for Interpretable Feature Engineering [0.0]
SMARTはセマンティック技術を用いて解釈可能な特徴の生成を誘導するハイブリッドアプローチである。
公開データセットを用いた実験により,SMARTは高い解釈性を確保しつつ予測精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-03T14:28:05Z) - shapiq: Shapley Interactions for Machine Learning [21.939393765684827]
Shapley Value(SV)とShapley Interactions(SI)を効率的に計算するために、最先端のアルゴリズムを統一したオープンソースのPythonパッケージであるshapiqを紹介する。
実践者にとって、Shapiqは、視覚変換器、言語モデル、XGBoost、TreeShap-IQによるLightGBMなど、モデルの予測において、任意の順序のフィーチャーインタラクションを説明および視覚化することができる。
論文 参考訳(メタデータ) (2024-10-02T15:16:53Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Robots That Ask For Help: Uncertainty Alignment for Large Language Model
Planners [85.03486419424647]
KnowNoは、大きな言語モデルの不確実性を測定し、調整するためのフレームワークである。
KnowNoは、タスク完了に関する統計的保証を提供する共形予測理論に基づいている。
論文 参考訳(メタデータ) (2023-07-04T21:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。