論文の概要: Large Language Models in Thematic Analysis: Prompt Engineering, Evaluation, and Guidelines for Qualitative Software Engineering Research
- arxiv url: http://arxiv.org/abs/2510.18456v1
- Date: Tue, 21 Oct 2025 09:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.317521
- Title: Large Language Models in Thematic Analysis: Prompt Engineering, Evaluation, and Guidelines for Qualitative Software Engineering Research
- Title(参考訳): テーマ分析における大規模言語モデル - 質的ソフトウェア工学研究のプロンプト工学, 評価, ガイドライン
- Authors: Cristina Martinez Montes, Robert Feldt, Cristina Miguel Martos, Sofia Ouhbi, Shweta Premanandan, Daniel Graziotin,
- Abstract要約: 大規模言語モデル (LLMs) は定性的な研究に参入しているが、それらを数理解析 (thematic analysis, TA) のような確立されたアプローチに統合するための再現可能な手法は存在しない。
我々はブラウンとクラークの反射性TAの位相2-5のプロンプトを設計・繰り返し改良した。
ブラウンとクラークの品質基準から導出した潤滑剤を応用した4つの専門家評価器を用いてブラインド評価を行った。
- 参考スコア(独自算出の注目度): 5.0043780915457114
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As artificial intelligence advances, large language models (LLMs) are entering qualitative research workflows, yet no reproducible methods exist for integrating them into established approaches like thematic analysis (TA), one of the most common qualitative methods in software engineering research. Moreover, existing studies lack systematic evaluation of LLM-generated qualitative outputs against established quality criteria. We designed and iteratively refined prompts for Phases 2-5 of Braun and Clarke's reflexive TA, then tested outputs from multiple LLMs against codes and themes produced by experienced researchers. Using 15 interviews on software engineers' well-being, we conducted blind evaluations with four expert evaluators who applied rubrics derived directly from Braun and Clarke's quality criteria. Evaluators preferred LLM-generated codes 61% of the time, finding them analytically useful for answering the research question. However, evaluators also identified limitations: LLMs fragmented data unnecessarily, missed latent interpretations, and sometimes produced themes with unclear boundaries. Our contributions are threefold. First, a reproducible approach integrating refined, documented prompts with an evaluation framework to operationalize Braun and Clarke's reflexive TA. Second, an empirical comparison of LLM- and human-generated codes and themes in software engineering data. Third, guidelines for integrating LLMs into qualitative analysis while preserving methodological rigour, clarifying when and how LLMs can assist effectively and when human interpretation remains essential.
- Abstract(参考訳): 人工知能が進歩するにつれて、大規模言語モデル(LLM)は定性的な研究ワークフローに入りつつありますが、ソフトウェア工学研究において最も一般的な定性的な方法の1つであるthematic analysis(TA)のような確立したアプローチに統合するための再現可能な方法はありません。
さらに, 既往の研究では, 確立された品質基準に対するLCM生成質的出力の体系的評価が欠如している。
我々は、ブラウンとクラークの反射性TAのフェーズ2-5のプロンプトを反復的に設計し、その後、経験豊富な研究者によって作成されたコードやテーマに対して複数のLSMからの出力を試験した。
ソフトウェア技術者の幸福感に関する15のインタビューを用いて、BraunとClarkeの品質基準から直接派生したルーブリックを適用した4人の専門家評価者を対象に、ブラインド評価を行った。
評価者は、LLM生成コードの61%を好んでおり、研究の質問に答えるために分析的に有用であることがわかった。
LLMはデータを不要に断片化し、遅延解釈を見逃し、時には境界が不明瞭なテーマを生成する。
私たちの貢献は3倍です。
第一に、洗練された文書化されたプロンプトを統合する再現可能なアプローチは、ブラウンとクラークの反射性TAを運用するための評価フレームワークを持つ。
第2に、ソフトウェアエンジニアリングデータにおけるLLMと人為的なコードとテーマを実証的に比較する。
第3に、LCMを定性分析に組み込むためのガイドラインは、方法論的な厳密さを維持しながら、LCMが効果的に、どのように、どのように人間の解釈が不可欠であるかを明確にするものである。
関連論文リスト
- Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - Applications and Implications of Large Language Models in Qualitative Analysis: A New Frontier for Empirical Software Engineering [0.46426852157920906]
この研究は、ソフトウェア工学における質的研究におけるLCMの使用を最適化するための構造化戦略とガイドラインの必要性を強調している。
LLMは質的な分析をサポートすることを約束していますが、データの解釈には人間の専門知識が不可欠です。
論文 参考訳(メタデータ) (2024-12-09T15:17:36Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Large Language Model for Qualitative Research -- A Systematic Mapping Study [3.302912592091359]
先進的な生成AIを駆使した大規模言語モデル(LLM)がトランスフォーメーションツールとして登場した。
本研究は, LLMを用いた定性的研究に関する文献を体系的にマッピングする。
LLMは様々な分野にまたがって利用されており、プロセスの自動化の可能性を示している。
論文 参考訳(メタデータ) (2024-11-18T21:28:00Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。