論文の概要: Text Annotation via Inductive Coding: Comparing Human Experts to LLMs in Qualitative Data Analysis
- arxiv url: http://arxiv.org/abs/2512.00046v1
- Date: Mon, 17 Nov 2025 13:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.405751
- Title: Text Annotation via Inductive Coding: Comparing Human Experts to LLMs in Qualitative Data Analysis
- Title(参考訳): 帰納的符号化によるテキストアノテーション:定性データ解析における人間専門家とLLMの比較
- Authors: Angelina Parfenova, Andreas Marfurt, Alexander Denzler, Juergen Pfeffer,
- Abstract要約: この研究は、6つのオープンソースの大規模言語モデル(LLM)の性能を、人間の専門家と比較して評価する。
人間のコーダーは、複雑な文をラベル付けするときに常にうまく機能するが、単純な文では苦労するが、LSMは反対の傾向を示す。
- 参考スコア(独自算出の注目度): 44.08932633077333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the automation of qualitative data analysis, focusing on inductive coding using large language models (LLMs). Unlike traditional approaches that rely on deductive methods with predefined labels, this research investigates the inductive process where labels emerge from the data. The study evaluates the performance of six open-source LLMs compared to human experts. As part of the evaluation, experts rated the perceived difficulty of the quotes they coded. The results reveal a peculiar dichotomy: human coders consistently perform well when labeling complex sentences but struggle with simpler ones, while LLMs exhibit the opposite trend. Additionally, the study explores systematic deviations in both human and LLM generated labels by comparing them to the golden standard from the test set. While human annotations may sometimes differ from the golden standard, they are often rated more favorably by other humans. In contrast, some LLMs demonstrate closer alignment with the true labels but receive lower evaluations from experts.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を用いた帰納的符号化に着目し,定性データ解析の自動化について検討する。
事前に定義されたラベルを持つ帰納的手法に依存する従来の手法とは異なり、この研究はラベルがデータから現れる帰納的過程を研究する。
この研究は、人間の専門家と比較して、6つのオープンソースLLMの性能を評価した。
評価の一環として、専門家は、彼らがコーディングした引用の難しさについて評価した。
人間のコーダーは、複雑な文をラベル付けするときに常にうまく機能するが、単純な文では苦労するが、LSMは反対の傾向を示す。
さらに,本研究では,ヒトおよびLDM生成ラベルの系統的偏差について,テストセットの黄金標準と比較することによって検討した。
人間のアノテーションは時に黄金の標準と異なることがあるが、他の人間より好意的に評価されることが多い。
対照的に、一部のLCMは真のラベルとの密接な整合性を示しているが、専門家から低い評価を受けている。
関連論文リスト
- Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文 参考訳(メタデータ) (2026-02-07T19:39:28Z) - Can We Hide Machines in the Crowd? Quantifying Equivalence in LLM-in-the-loop Annotation Tasks [8.246529401043128]
我々は、人間とLLMの両方によるラベル付け決定が、個人間で統計的に評価される方法について検討することを目指している。
Krippendorffの$alpha$, paired bootstrapping, and the Two One-Sided t-Tests (TOST) equivalence test procedureに基づく統計的評価法を開発した。
このアプローチをMovieLens 100K と PolitiFact という2つのデータセットに適用すると、LCM が前者の人間のアノテーションと統計的に区別できないことが分かる。
論文 参考訳(メタデータ) (2025-10-08T05:17:33Z) - What Has Been Lost with Synthetic Evaluation? [45.678729819785104]
大規模言語モデル(LLM)は、データ生成にますます使われている。
オーバーテキストベンチマークを生成することにより, LLM が要求を満たすことができるかどうかを検討する。
我々は、LLMが人間によって認可されたものよりも難易度が低いことを示す。
論文 参考訳(メタデータ) (2025-05-28T20:12:32Z) - Improving Preference Extraction In LLMs By Identifying Latent Knowledge Through Classifying Probes [20.20764453136706]
大規模言語モデル(LLM)は、しばしばテキストを評価するために自動判断器として使用される。
本稿では,2つのプロンプト間の差異を利用して学習した線形分類プローブを用いて,潜在知識にアクセスし,より正確な選好を抽出する手法を提案する。
論文 参考訳(メタデータ) (2025-03-22T12:35:25Z) - Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering [18.766132076075365]
大規模言語モデル(LLM)は、コード生成のような様々なソフトウェアエンジニアリング(SE)タスクに取り組むためにデプロイされている。
Pass@kメトリックは、広範囲なユニットテストと設定された環境を必要とし、LLM生成したテキストの評価には適していない。
BLEUのような従来のメトリクスは、意味的類似性ではなく語彙のみを測定するが、精査されている。
論文 参考訳(メタデータ) (2025-02-10T06:49:29Z) - Labeling Free-text Data using Language Model Ensembles [3.3297218009343754]
本稿では,プライバシ制約下での自由テキストデータにおける所定のトピックのラベル付けを強化する枠組みを提案する。
我々は,摂食障害関連フォーラムから公開されているRedditデータと摂食障害患者の自由テキスト応答を用いて,アンサンブルアプローチを評価した。
論文 参考訳(メタデータ) (2025-01-14T20:08:16Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。