論文の概要: Assessing the Reliability of Large Language Models for Deductive Qualitative Coding: A Comparative Study of ChatGPT Interventions
- arxiv url: http://arxiv.org/abs/2507.14384v1
- Date: Fri, 18 Jul 2025 22:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.869226
- Title: Assessing the Reliability of Large Language Models for Deductive Qualitative Coding: A Comparative Study of ChatGPT Interventions
- Title(参考訳): 帰納的定性符号化のための大規模言語モデルの信頼性の評価:ChatGPT干渉の比較検討
- Authors: Angjelin Hila, Elliott Hauser,
- Abstract要約: 本研究では,構造化定性符号化における大規模言語モデル (LLM) の利用について検討する。
我々は合衆国最高裁判所の判例を21の政策領域に分類した。
ChatGPTは、低支持サブクラスにおける高いF1スコアを含む、サンプル間で安定した一致を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we investigate the use of large language models (LLMs), specifically ChatGPT, for structured deductive qualitative coding. While most current research emphasizes inductive coding applications, we address the underexplored potential of LLMs to perform deductive classification tasks aligned with established human-coded schemes. Using the Comparative Agendas Project (CAP) Master Codebook, we classified U.S. Supreme Court case summaries into 21 major policy domains. We tested four intervention methods: zero-shot, few-shot, definition-based, and a novel Step-by-Step Task Decomposition strategy, across repeated samples. Performance was evaluated using standard classification metrics (accuracy, F1-score, Cohen's kappa, Krippendorff's alpha), and construct validity was assessed using chi-squared tests and Cramer's V. Chi-squared and effect size analyses confirmed that intervention strategies significantly influenced classification behavior, with Cramer's V values ranging from 0.359 to 0.613, indicating moderate to strong shifts in classification patterns. The Step-by-Step Task Decomposition strategy achieved the strongest reliability (accuracy = 0.775, kappa = 0.744, alpha = 0.746), achieving thresholds for substantial agreement. Despite the semantic ambiguity within case summaries, ChatGPT displayed stable agreement across samples, including high F1 scores in low-support subclasses. These findings demonstrate that with targeted, custom-tailored interventions, LLMs can achieve reliability levels suitable for integration into rigorous qualitative coding workflows.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM),特にChatGPTの定性的構造化への応用について検討する。
近年のほとんどの研究では、帰納的符号化が重視されているが、既存の人為的符号化方式と整合した帰納的分類タスクを行うため、LLMの未探索の可能性に対処する。
比較アジェンダプロジェクト(CAP)マスターコードブックを用いて、米国最高裁判所の判例要約を21の政策領域に分類した。
提案手法は,ゼロショット,少数ショット,定義ベース,ステップ・バイ・ステップ・タスク・デカレーション(Step-by-Step Task Decomposition)という4つの手法を反復して検証した。
標準分類指標(精度,F1スコア,コーエンカッパ,クリッペンドルフアルファ)を用いて評価し,キ二乗試験とクレーマーVを用いて構成妥当性を評価した。
Step-by-Step Task Decomposition戦略は、強い信頼性(精度=0.775、カッパ=0.744、アルファ=0.746)を達成した。
ケースサマリーにおける意味的曖昧さにもかかわらず、ChatGPTは低支持サブクラスにおける高いF1スコアを含むサンプル間で安定した一致を示した。
これらの結果は、目標とするカスタマイズされた介入によって、LLMは厳密な定性的なコーディングワークフローへの統合に適した信頼性レベルを達成することができることを示している。
関連論文リスト
- Rethinking Verification for LLM Code Generation: From Generation to Testing [44.46778801679273]
大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。
本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。
実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
論文 参考訳(メタデータ) (2025-07-09T14:58:47Z) - Semantic-Aware Contrastive Fine-Tuning: Boosting Multimodal Malware Classification with Discriminative Embeddings [2.1874189959020427]
大規模言語モデル(LLM)は、家族分類を支援するマルウェア記述を生成する可能性を提供する。
硬質負試料のターゲット選択によりLCM埋め込みを改良するコントラスト微調整法(CFT)を提案する。
提案手法は, 高い相似性陰性度を組み合わせ, 識別力と中層性陰性度を高め, 埋め込み多様性を高める。
論文 参考訳(メタデータ) (2025-04-25T02:41:45Z) - Low-Confidence Gold: Refining Low-Confidence Samples for Efficient Instruction Tuning [3.8864394300826346]
低信頼金(Low-Confidence Gold、LCG)は、セントロイドベースのクラスタリングと信頼誘導選択を利用する新しいフィルタリングフレームワークである。
LCGはデータの多様性を維持しながら高品質なサブセットをキュレートする。
6KサンプルのLCGフィルタサブセットを微調整したモデルでは,既存手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2025-02-26T09:37:21Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Post-hoc Probabilistic Vision-Language Models [51.12284891724463]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Confidence Estimation via Auxiliary Models [47.08749569008467]
モデル信頼のための新しいターゲット基準、すなわち真のクラス確率(TCP)を紹介します。
標準最大クラス確率 (MCP) よりも TCP が信頼度推定に優れた特性を提供することを示す。
論文 参考訳(メタデータ) (2020-12-11T17:21:12Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。