論文の概要: Automated Quality Assessment for LLM-Based Complex Qualitative Coding: A Confidence-Diversity Framework
- arxiv url: http://arxiv.org/abs/2508.20462v1
- Date: Thu, 28 Aug 2025 06:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.075218
- Title: Automated Quality Assessment for LLM-Based Complex Qualitative Coding: A Confidence-Diversity Framework
- Title(参考訳): LLMに基づく複合定性符号化における品質自動評価:信頼・多様性の枠組み
- Authors: Zhilong Zhao, Yindi Liu,
- Abstract要約: 本研究は、モデル信頼度とモデル間コンセンサスを組み合わせた二重信号品質評価を拡張する。
このアプローチを,法的理由づけ(390件),政治的分析(645件),医学的分類の3分野にわたって体系的に検証した。
これらの結果は、自動品質評価が、アクセス可能から複雑な分析タスクにスケール可能であることを証明し、AI支援定性的研究を拡大するための実用的なツールを提供する。
- 参考スコア(独自算出の注目度): 0.23872611575805827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While previous research demonstrated effective automated quality assessment for accessible LLM coding tasks, a fundamental question remains: can confidence-diversity frameworks maintain reliability for complex analytical tasks requiring specialized domain expertise and extensive text comprehension? Traditional inter-coder reliability measures become prohibitively expensive at scale, yet the lack of reliable automated quality assessment methods creates methodological barriers to AI adoption in sophisticated qualitative research. This study extends dual-signal quality assessment combining model confidence and inter-model consensus from accessible to complex analytical domains. We systematically validate this approach across three domains: legal reasoning (390 Supreme Court cases), political analysis (645 hyperpartisan articles), and medical classification (1,000 clinical transcripts). Results demonstrate that uncertainty-based indicators maintain predictive validity in complex tasks, with external entropy showing consistent negative correlations with accuracy (r = -0.179 to -0.273, p < 0.001) and confidence exhibiting positive correlations in two domains (r = 0.104 to 0.429). Systematic weight optimization achieves 6.6 to 113.7 percent improvements over single-signal approaches, with optimized weights transferring effectively across domains (100 percent success rate). An intelligent triage system reduces manual verification effort by 44.6 percent while maintaining quality standards. These findings establish that automated quality assessment can scale from accessible to complex analytical tasks, providing practical tools for expanding AI-assisted qualitative research. Future work will focus on addressing long-tail challenges in high-disagreement, low-confidence cases to further enhance screening efficiency.
- Abstract(参考訳): 信頼性と多様性のフレームワークは、専門分野の専門知識と広範なテキスト理解を必要とする複雑な分析タスクの信頼性を維持することができるか?
しかし、信頼性の高い自動品質評価手法が欠如していることは、高度な定性的な研究において、AIの採用に対する方法論上の障壁を生み出している。
本研究では、モデル信頼度とモデル間コンセンサスを組み合わせた二重信号品質評価を、アクセシビリティから複雑な分析領域へ拡張する。
このアプローチを,法的理由づけ(390件),政治的分析(645件),医学的分類(1000件)の3分野にわたって体系的に検証した。
その結果、不確実性に基づく指標は複雑なタスクにおける予測正当性を保ち、外部エントロピーは精度(r = -0.179 - -0.273, p < 0.001)と信頼度(r = 0.104 - 0.429)と一貫した負の相関を示す。
体系的な重み最適化は、単一信号方式よりも6.6から113.7%改善され、最適化された重みがドメイン間で効果的に転送される(100%の成功率)。
インテリジェントトリアージシステムは、品質基準を維持しながら、手動検証の労力を44.6%削減する。
これらの結果は、自動品質評価が、アクセス可能から複雑な分析タスクにスケール可能であることを証明し、AI支援定性的研究を拡大するための実用的なツールを提供する。
今後の取り組みは、スクリーニング効率をさらに高めるために、高診断、低信頼のケースにおける長期的課題に対処することに焦点を当てる。
関連論文リスト
- AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning [2.918225266151982]
本稿では,データセットを生成するためのセキュアなC/C++に,現実的なカテゴリ固有の脆弱性を自動的に導入する新しいフレームワークを提案する。
提案したアプローチは、専門家の推論をシミュレートする複数のAIエージェントと、関数エージェントと従来のコード解析ツールをコーディネートする。
3つの異なるベンチマークから得られた116のコードサンプルに関する実験的研究は、我々のアプローチがデータセットの精度に関して他の手法よりも優れていることを示唆している。
論文 参考訳(メタデータ) (2025-08-28T14:59:39Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - A Holistic Assessment of the Reliability of Machine Learning Systems [30.638615396429536]
本稿では,機械学習(ML)システムの信頼性に関する総合評価手法を提案する。
本フレームワークは, 分散精度, 分散シフト堅牢性, 対向ロバスト性, キャリブレーション, 分布外検出の5つの重要な特性を評価する。
異なるアルゴリズムアプローチの性能に関する洞察を提供するため、我々は最先端技術を特定し分類する。
論文 参考訳(メタデータ) (2023-07-20T05:00:13Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。