論文の概要: Measuring LLM Trust Allocation Across Conflicting Software Artifacts
- arxiv url: http://arxiv.org/abs/2604.03447v1
- Date: Fri, 03 Apr 2026 20:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.584492
- Title: Measuring LLM Trust Allocation Across Conflicting Software Artifacts
- Title(参考訳): ソフトウェアアーチファクト間のLLM信頼配分の測定
- Authors: Noshin Ulfat, Ahsanul Ameen Sabit, Soneya Binta Hossain,
- Abstract要約: 本稿では,Javadoc上の構造化アーティファクトレベルの信頼トレース,メソッドシグネチャ,実装,テストプレフィックスを付与するフレームワークであるTRACEを紹介する。
我々は,人工物ごとの品質評価,不整合検出,影響を受ける人工物属性,ソース優先性を評価した。
- 参考スコア(独自算出の注目度): 4.974612243038232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based software engineering assistants fail not only by producing incorrect outputs, but also by allocating trust to the wrong artifact when code, documentation, and tests disagree. Existing evaluations focus mainly on downstream outcomes and therefore cannot reveal whether a model recognized degraded evidence, identified the unreliable source, or calibrated its trust across artifacts. We present TRACE (Trust Reasoning over Artifacts for Calibrated Evaluation), a framework that elicits structured artifact-level trust traces over Javadoc, method signatures, implementations, and test prefixes under blind perturbations. Using 22,339 valid traces from seven models on 456 curated Java method bundles, we evaluate per-artifact quality assessment, inconsistency detection, affected artifact attribution, and source prioritization. Across all models, quality penalties are largely localized to the perturbed artifact and increase with severity, but sensitivity is asymmetric across artifact types: documentation bugs induce a substantially larger heavy-to-subtle gap than implementation faults (0.152-0.253 vs. 0.049-0.123). Models detect explicit documentation bugs well (67-94%) and Javadoc and implementation contradictions at 50-91%, yet show a systematic blind spot when only the implementation drifts while the documentation remains plausible, with detection dropping by 7-42 percentage points. Confidence is poorly calibrated for six of seven models. These findings suggest that current LLMs are better at auditing natural-language specifications than at detecting subtle code-level drift, motivating explicit artifact-level trust reasoning before correctness-critical downstream use.
- Abstract(参考訳): LLMベースのソフトウェアエンジニアリングアシスタントは、誤ったアウトプットを生成するだけでなく、コードやドキュメント、テストが一致しない場合に、間違ったアーティファクトへの信頼を割り当てることによって失敗する。
既存の評価は、主に下流の結果に焦点を当てているため、モデルが劣化した証拠を認識したり、信頼性の低い情報源を特定したり、人工物間の信頼度を調整したりするかどうかを明らかにすることはできない。
本稿では,Javadoc上の構造化されたアーティファクトレベルの信頼トレース,メソッドシグネチャ,実装,テストプレフィックスを視覚障害下で引き出すフレームワークであるTRACE(Trust Reasoning over Artifacts for Calibrated Evaluation)を紹介する。
456個のキュレートされたJavaメソッドバンドル上の7つのモデルから,22,339個の有効なトレースを用いて,アーティファクトごとの品質評価,不整合検出,影響のあるアーティファクト属性,ソース優先性を評価した。
すべてのモデルにおいて、品質の罰則は乱れたアーティファクトに大半が局所化され、重大さとともに増加するが、感度はアーティファクトタイプ間で非対称である: ドキュメントバグは実装欠陥よりもはるかに大きな重度と重質のギャップを生じさせる(0.152-0.253 vs. 0.049-0.123)。
モデルは明示的なドキュメントバグ(67-94%)をよく検出し、Javadocと実装の矛盾を50-91%で検出する。
信頼性は7つのモデルのうち6つでは不十分である。
これらの結果から,現在のLLMは微妙なコードレベルのドリフトの検出よりも自然言語仕様の監査が優れていることが示唆された。
関連論文リスト
- HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - CodeFuse-CommitEval: Towards Benchmarking LLM's Power on Commit Message and Code Change Inconsistency Detection [8.631593963090985]
バージョン管理は、コード変更の合理性を伝えるためにコミットメッセージに依存するが、これらのメッセージは、しばしば低品質で、メッセージコード不整合(MCI)として知られる差分と矛盾する。
大規模言語モデル(LLM)を用いたMCI検出のための最初のベンチマークであるCODEFUSE-COMMITEVALを紹介する。
我々は、元々一貫したコミットのルール誘導突然変異を通じて、7種類の一貫性のないメッセージを生成し、正と負の両方のサンプルを検証するために2倍の検証を適用した。
論文 参考訳(メタデータ) (2025-11-25T03:33:57Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z) - On the Effectiveness of LLMs for Manual Test Verifications [1.920300814128832]
本研究の目的は,手動テストの検証にLarge Language Models (LLMs) を用いることである。
オープンソースモデル Mistral-7B と Phi-3-mini-4k は、クローズドソースモデルと同等の有効性と一貫性を示した。
AI幻覚にも懸念があり、検証は期待から著しく逸脱した。
論文 参考訳(メタデータ) (2024-09-19T02:03:04Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。