論文の概要: From Inductive to Deductive: LLMs-Based Qualitative Data Analysis in Requirements Engineering
- arxiv url: http://arxiv.org/abs/2504.19384v1
- Date: Sun, 27 Apr 2025 23:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.263613
- Title: From Inductive to Deductive: LLMs-Based Qualitative Data Analysis in Requirements Engineering
- Title(参考訳): インダクティブからデダクティブへ:要求工学におけるLCMに基づく質的データ分析
- Authors: Syed Tauhid Ullah Shah, Mohamad Hussein, Ann Barcomb, Mohammad Moshirpour,
- Abstract要約: 本稿では,Large Language Models (LLMs) を用いた要件工学(RE)における定性的データ解析タスクの改善について検討する。
我々は, GPT-4 が人間アナリストと有意に一致していることを示し, Cohen の Kappa スコアは 0.7 を超え, ゼロショット性能は依然として制限されている。
これらの知見は,アノテーションの品質を維持しつつ手作業の軽減により,REにおけるQDAをサポートするLLMの可能性を強調した。
- 参考スコア(独自算出の注目度): 0.7874708385247352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Requirements Engineering (RE) is essential for developing complex and regulated software projects. Given the challenges in transforming stakeholder inputs into consistent software designs, Qualitative Data Analysis (QDA) provides a systematic approach to handling free-form data. However, traditional QDA methods are time-consuming and heavily reliant on manual effort. In this paper, we explore the use of Large Language Models (LLMs), including GPT-4, Mistral, and LLaMA-2, to improve QDA tasks in RE. Our study evaluates LLMs' performance in inductive (zero-shot) and deductive (one-shot, few-shot) annotation tasks, revealing that GPT-4 achieves substantial agreement with human analysts in deductive settings, with Cohen's Kappa scores exceeding 0.7, while zero-shot performance remains limited. Detailed, context-rich prompts significantly improve annotation accuracy and consistency, particularly in deductive scenarios, and GPT-4 demonstrates high reliability across repeated runs. These findings highlight the potential of LLMs to support QDA in RE by reducing manual effort while maintaining annotation quality. The structured labels automatically provide traceability of requirements and can be directly utilized as classes in domain models, facilitating systematic software design.
- Abstract(参考訳): 要求工学(RE)は、複雑で規制されたソフトウェアプロジェクトの開発に不可欠である。
利害関係者の入力を一貫したソフトウェア設計に変換するという課題を考えると、定性データ分析(QDA)は自由形式のデータを扱うための体系的なアプローチを提供する。
しかしながら、従来のQDAメソッドは時間がかかり、手作業に大きく依存しています。
本稿では,GPT-4,Mistral,LLaMA-2を含むLarge Language Models (LLMs) を用いて,REにおけるQDAタスクの改善について検討する。
本研究は,インダクティブ (ゼロショット) およびデダクティブ (ワンショット, 少数ショット) アノテーションタスクにおけるLCMの性能を評価した結果, GPT-4 はインダクティブ・セッティングにおいて人間アナリストとの相当な合意を達成し,Cohen の Kappa スコアは 0.7 を超え,ゼロショット・パフォーマンスは限定的であることがわかった。
詳細でコンテキストに富んだプロンプトは、特に推論シナリオにおいて、アノテーションの精度と一貫性を著しく向上させ、GPT-4は繰り返し実行される間に高い信頼性を示す。
これらの知見は,アノテーションの品質を維持しつつ手作業の軽減により,REにおけるQDAをサポートするLLMの可能性を強調した。
構造化ラベルは自動的に要求のトレーサビリティを提供し、ドメインモデルのクラスとして直接利用でき、体系的なソフトウェア設計を容易にする。
関連論文リスト
- A LoRA-Based Approach to Fine-Tuning LLMs for Educational Guidance in Resource-Constrained Settings [0.0]
本研究は,大規模言語モデル(LLM)を学習環境に配慮した学術的助言に適応するための費用対効果について述べる。
トレーニング後、トレーニング損失は52.7%減少し、ドメイン固有の推奨項目では92%の精度で、市販のGPU機器では、毎秒100サンプルのランレートが中央値であった。
論文 参考訳(メタデータ) (2025-04-22T06:08:13Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning [13.082135438792475]
自己補正の連鎖は、大規模言語モデルに固有の能力として自己補正を組み込む。
CoSCは一連の自己補正段階を通して機能する。
実験により、CoSCは標準的な数学的データセットの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-14T17:16:44Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。
その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文 参考訳(メタデータ) (2024-05-01T16:13:54Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。