Fugu-MT 論文翻訳(概要): Automated Quality Assessment for LLM-Based Complex Qualitative Coding: A Confidence-Diversity Framework

論文の概要: Automated Quality Assessment for LLM-Based Complex Qualitative Coding: A Confidence-Diversity Framework

arxiv url: http://arxiv.org/abs/2508.20462v2
Date: Tue, 30 Sep 2025 08:37:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-01 17:09:04.081491
Title: Automated Quality Assessment for LLM-Based Complex Qualitative Coding: A Confidence-Diversity Framework
Title（参考訳）: LLMに基づく複合定性符号化における品質自動評価:信頼・多様性の枠組み
Authors: Zhilong Zhao, Yindi Liu,
Abstract要約: モデル信頼度とモデル間コンセンサス(外部エントロピー)を組み合わせた二重信号品質評価フレームワークを開発する。法的な理由づけ、政治的分析、医学的分類書にまたがって評価する。このフレームワークは、広範に二重符号化することなく定性的なコーディングをスケールする、原則化された、ドメインに依存しない品質保証メカニズムを提供する。
参考スコア（独自算出の注目度）: 0.23872611575805827
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Computational social science lacks a scalable and reliable mechanism to assure quality for AI-assisted qualitative coding when tasks demand domain expertise and long-text reasoning, and traditional double-coding is prohibitively costly at scale. We develop and validate a dual-signal quality assessment framework that combines model confidence with inter-model consensus (external entropy) and evaluate it across legal reasoning (390 Supreme Court cases), political analysis (645 hyperpartisan articles), and medical classification (1,000 clinical transcripts). External entropy is consistently negatively associated with accuracy (r = -0.179 to -0.273, p < 0.001), while confidence is positively associated in two domains (r = 0.104 to 0.429). Weight optimization improves over single-signal baselines by 6.6-113.7% and transfers across domains (100% success), and an intelligent triage protocol reduces manual verification effort by 44.6% while maintaining quality. The framework offers a principled, domain-agnostic quality assurance mechanism that scales qualitative coding without extensive double-coding, provides actionable guidance for sampling and verification, and enables larger and more diverse corpora to be analyzed with maintained rigor.
Abstract（参考訳）: 計算社会科学は、タスクがドメインの専門知識と長文の推論を要求するとき、AI支援の定性的なコーディングの品質を保証するスケーラブルで信頼性の高いメカニズムを欠いている。モデル信頼度とモデル間コンセンサス(外部エントロピー)を組み合わせ、法的推論(390件)、政治的分析(645件)、医学的分類(1000件の臨床書面)で評価する双信号品質評価フレームワークを開発した。外部エントロピーは一貫して精度(r = -0.179 to -0.273, p < 0.001)と負の相関を持ち、信頼は2つの領域(r = 0.104 - 0.429)で正の相関を持つ。軽量化はシングルサインのベースラインを6.6-113.7%改善し、ドメイン間での転送(100%の成功)、インテリジェントトリアージプロトコルは、品質を維持しながら手動検証の労力を44.6%削減する。このフレームワークは原則的、ドメインに依存しない品質保証メカニズムを提供し、大規模な二重符号化なしで定性的なコーディングをスケールし、サンプリングと検証のための実用的なガイダンスを提供し、より大規模で多様なコーパスを保守された厳密さで分析できるようにする。

関連論文リスト

AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning [2.918225266151982]
本稿では,データセットを生成するためのセキュアなC/C++に,現実的なカテゴリ固有の脆弱性を自動的に導入する新しいフレームワークを提案する。提案したアプローチは、専門家の推論をシミュレートする複数のAIエージェントと、関数エージェントと従来のコード解析ツールをコーディネートする。 3つの異なるベンチマークから得られた116のコードサンプルに関する実験的研究は、我々のアプローチがデータセットの精度に関して他の手法よりも優れていることを示唆している。
論文参考訳（メタデータ） (2025-08-28T14:59:39Z)
LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文参考訳（メタデータ） (2025-08-07T14:46:30Z)
A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。 8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文参考訳（メタデータ） (2025-08-04T03:47:10Z)
Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。 LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文参考訳（メタデータ） (2025-07-30T08:44:22Z)
ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文参考訳（メタデータ） (2023-10-14T17:10:28Z)
A Holistic Assessment of the Reliability of Machine Learning Systems [30.638615396429536]
本稿では,機械学習(ML)システムの信頼性に関する総合評価手法を提案する。本フレームワークは, 分散精度, 分散シフト堅牢性, 対向ロバスト性, キャリブレーション, 分布外検出の5つの重要な特性を評価する。異なるアルゴリズムアプローチの性能に関する洞察を提供するため、我々は最先端技術を特定し分類する。
論文参考訳（メタデータ） (2023-07-20T05:00:13Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。