論文の概要: Understanding on the Edge: LLM-generated Boundary Test Explanations
- arxiv url: http://arxiv.org/abs/2601.22791v1
- Date: Fri, 30 Jan 2026 10:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.377722
- Title: Understanding on the Edge: LLM-generated Boundary Test Explanations
- Title(参考訳): エッジの理解: LLM生成境界試験の説明
- Authors: Sabinakhon Akbarova, Felix Dobslaw, Robert Feldt,
- Abstract要約: 境界値分析とテストは、ソフトウェアの品質保証に不可欠である。
LLMは自然言語の合理性を生み出すのに役立つが、BVTに対するその価値は実証的に評価されていない。
調査では、ソフトウェア専門家が、明確さ、正確性、完全性、有用性に対する20の境界対について、GPT-4.1の説明を評価した。
- 参考スコア(独自算出の注目度): 4.901543643055091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Boundary value analysis and testing (BVT) is fundamental in software quality assurance because faults tend to cluster at input extremes, yet testers often struggle to understand and justify why certain input-output pairs represent meaningful behavioral boundaries. Large Language Models (LLMs) could help by producing natural-language rationales, but their value for BVT has not been empirically assessed. We therefore conducted an exploratory study on LLM-generated boundary explanations: in a survey, twenty-seven software professionals rated GPT-4.1 explanations for twenty boundary pairs on clarity, correctness, completeness and perceived usefulness, and six of them elaborated in follow-up interviews. Overall, 63.5% of all ratings were positive (4-5 on a five-point Likert scale) compared to 17% negative (1-2), indicating general agreement but also variability in perceptions. Participants favored explanations that followed a clear structure, cited authoritative sources, and adapted their depth to the reader's expertise; they also stressed the need for actionable examples to support debugging and documentation. From these insights, we distilled a seven-item requirement checklist that defines concrete design criteria for future LLM-based boundary explanation tools. The results suggest that, with further refinement, LLM-based tools can support testing workflows by making boundary explanations more actionable and trustworthy.
- Abstract(参考訳): 境界値分析とテスト(BVT)は、ソフトウェアの品質保証において、障害が入力極端に集結する傾向があるため、基本的なものだが、テスタは、ある入力と出力のペアが意味のある振る舞いの境界を表す理由を理解し、正当化するのに苦労することが多い。
大きな言語モデル(LLM)は自然言語の有理数を生成するのに役立つが、BVTに対するその価値は実証的に評価されていない。
そこで我々は, LLM生成境界説明に関する探索的研究を行った。調査では, 20人のソフトウェア専門家が20の境界対について, 明瞭度, 正確性, 完全性, 知覚的有用性について GPT-4.1 を評価し, その内6人をフォローアップインタビューで詳述した。
総合評価では63.5%が肯定的(5点類似の尺度では4-5)であり、17%が否定的(1-2)であった。
参加者は明確な構造を踏襲し、権威のある情報源を引用し、読者の専門知識に深く適応した説明を好んだ。
これらの知見から,将来のLCMベース境界記述ツールの設計基準を定義する7項目の要求チェックリストを抽出した。
以上の結果から,LLMベースのツールにより,境界説明をより実用的で信頼性の高いものにすることで,ワークフローのテストを支援することが示唆された。
関連論文リスト
- Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - On the Factual Consistency of Text-based Explainable Recommendation Models [2.2153783542347805]
テキストベースの説明可能なレコメンデータの事実整合性を評価するための包括的フレームワークを提案する。
レビューから原子説明文を抽出するためにLSMを用いたプロンプトベースパイプラインを設計する。
LLMとNLIをベースとした手法を組み合わせたステートメントレベルのアライメントメトリクスを提案する。
論文 参考訳(メタデータ) (2025-12-30T17:25:15Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Instruction Boundary: Quantifying Biases in LLM Reasoning under Various Coverage [34.247904738521136]
異なる命令形式がLLM推論能力をどのように促進するか、それとも誤解を招くかを検討する。
本稿では,インストラクション境界の概念を導入し,異なるレベルのプロンプトカバレッジが推論バイアスにどのように寄与するかを系統的に分析する。
異なる種類の命令境界条件下でスパースラベルを識別するLLMの能力を定量化する統合フレームワークであるBiasDetectorを提案する。
論文 参考訳(メタデータ) (2025-09-24T16:15:26Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Inference to the Best Explanation in Large Language Models [14.846962816266188]
Inference to the Best Explanation (IBE) に関する哲学的な記述から着想を得た IBE-Eval を提案する。
IBE-Evalは、明示的な論理的特徴と言語的特徴を組み合わせることで、自然言語の説明の妥当性を推定する。
実験の結果、IBE-Evalは77%の精度で最良の説明を特定できることがわかった。
論文 参考訳(メタデータ) (2024-02-16T15:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。