論文の概要: Context-Adaptive Requirements Defect Prediction through Human-LLM Collaboration
- arxiv url: http://arxiv.org/abs/2601.01952v1
- Date: Mon, 05 Jan 2026 10:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.95083
- Title: Context-Adaptive Requirements Defect Prediction through Human-LLM Collaboration
- Title(参考訳): 人間-LLM協調による文脈適応的要求欠陥予測
- Authors: Max Unterbusch, Andreas Vogelsang,
- Abstract要約: 本稿では,欠陥予測を静的な分類タスクではなく適応プロセスとして扱うHuman-LLM Collaboration(HLC)アプローチを提案する。
メルセデス・ベンツの要求条件である1,266のQuREベンチマークの弱い単語の匂いを用いて,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 1.4499356176178066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated requirements assessment traditionally relies on universal patterns as proxies for defectiveness, implemented through rule-based heuristics or machine learning classifiers trained on large annotated datasets. However, what constitutes a "defect" is inherently context-dependent and varies across projects, domains, and stakeholder interpretations. In this paper, we propose a Human-LLM Collaboration (HLC) approach that treats defect prediction as an adaptive process rather than a static classification task. HLC leverages LLM Chain-of-Thought reasoning in a feedback loop: users validate predictions alongside their explanations, and these validated examples adaptively guide future predictions through few-shot learning. We evaluate this approach using the weak word smell on the QuRE benchmark of 1,266 annotated Mercedes-Benz requirements. Our results show that HLC effectively adapts to the provision of validated examples, with rapid performance gains from as few as 20 validated examples. Incorporating validated explanations, not just labels, enables HLC to substantially outperform both standard few-shot prompting and fine-tuned BERT models while maintaining high recall. These results highlight how the in-context and Chain-of-Thought learning capabilities of LLMs enable adaptive classification approaches that move beyond one-size-fits-all models, creating opportunities for tools that learn continuously from stakeholder feedback.
- Abstract(参考訳): 自動要求評価は伝統的に、欠陥のプロキシとして普遍的なパターンに依存しており、ルールベースのヒューリスティックや、大規模な注釈付きデータセットでトレーニングされた機械学習分類器によって実装されている。
しかしながら、"欠陥"を構成するものは本質的にコンテキスト依存であり、プロジェクト、ドメイン、ステークホルダーの解釈によって異なる。
本稿では,欠陥予測を静的な分類タスクではなく適応的なプロセスとして扱うHuman-LLM Collaboration(HLC)アプローチを提案する。
HLC は LLM Chain-of-Thought 推論をフィードバックループで活用する。ユーザは説明とともに予測を検証し、これらの検証された例は、数ショットの学習を通じて将来の予測を適応的に導く。
メルセデス・ベンツの要求条件である1,266のQuREベンチマークの弱い単語の匂いを用いて,本手法の評価を行った。
以上の結果から,HLCは有効に有効適応できることを示す。
ラベルだけでなく、検証された説明を組み込むことで、HLCは高いリコールを維持しながら、標準的な数発のプロンプトと微調整のBERTモデルの両方を大幅に上回ることができる。
これらの結果は、LLMのコンテキスト内学習と連鎖学習の能力が、一律にフィットするモデルを超えて適応的な分類アプローチを可能にし、ステークホルダーのフィードバックから継続的に学習するツールの機会を生み出している点を浮き彫りにしている。
関連論文リスト
- Towards Consistent Detection of Cognitive Distortions: LLM-Based Annotation and Dataset-Agnostic Evaluation [2.699704259580951]
テキストに基づく自動認知歪み検出は、主観的な性質のため難しい課題である。
一貫性のある信頼性のあるアノテータとしてLarge Language Models (LLM)の使用について検討する。
論文 参考訳(メタデータ) (2025-11-03T11:45:26Z) - Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - Feeding LLM Annotations to BERT Classifiers at Your Own Risk [14.533304890042361]
テキスト分類のための小さなエンコーダのみのモデルにLLM生成ラベルを使用することは、様々な設定で人気を博している。
合成データに対する訓練の長年の呪いが、この特定の設定でどのように現れているかを実証する。
金ラベルでトレーニングされたモデルと比較して、精度とF1スコアが期待される性能劣化だけでなく、トレーニングランと未熟なパフォーマンスプラトーの不安定性も向上する。
論文 参考訳(メタデータ) (2025-04-21T20:54:55Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
我々は,既存の勾配法を改良し,大規模に効果的に機能させる。
我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。