論文の概要: A Hierarchical Error Framework for Reliable Automated Coding in Communication Research: Applications to Health and Political Communication
- arxiv url: http://arxiv.org/abs/2509.24841v2
- Date: Fri, 24 Oct 2025 07:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.166339
- Title: A Hierarchical Error Framework for Reliable Automated Coding in Communication Research: Applications to Health and Political Communication
- Title(参考訳): コミュニケーション研究における信頼性の高い自動コーディングのための階層的エラーフレームワーク:健康・政治コミュニケーションへの応用
- Authors: Zhilong Zhao, Yindi Liu,
- Abstract要約: 階層的エラー補正フレームワークを導入し,モデル故障を階層的な測定誤差として扱う。
系統的誤分類を減らし, 平均精度が11.2ポイント, 安定した結論が得られた。
これは、コミュニケーション研究と幅広い社会科学をまたいだ自動コーディングに適用される。
- 参考スコア(独自算出の注目度): 0.23872611575805827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated content analysis increasingly supports communication research, yet scaling manual coding into computational pipelines raises concerns about measurement reliability and validity. We introduce a Hierarchical Error Correction (HEC) framework that treats model failures as layered measurement errors (knowledge gaps, reasoning limitations, and complexity constraints) and targets the layers that most affect inference. The framework implements a three-phase methodology: systematic error profiling across hierarchical layers, targeted intervention design matched to dominant error sources, and rigorous validation with statistical testing. Evaluating HEC across health communication (medical specialty classification) and political communication (bias detection), and legal tasks, we validate the approach with five diverse large language models. Results show average accuracy gains of 11.2 percentage points (p < .001, McNemar's test) and stable conclusions via reduced systematic misclassification. Cross-model validation demonstrates consistent improvements (range: +6.8 to +14.6pp), with effectiveness concentrated in moderate-to-high baseline tasks (50-85% accuracy). A boundary study reveals diminished returns in very high-baseline (>85%) or precision-matching tasks, establishing applicability limits. We map layered errors to threats to construct and criterion validity and provide a transparent, measurement-first blueprint for diagnosing error profiles, selecting targeted interventions, and reporting reliability/validity evidence alongside accuracy. This applies to automated coding across communication research and the broader social sciences.
- Abstract(参考訳): 自動コンテンツ分析はコミュニケーション研究をますますサポートしているが、手動のコーディングを計算パイプラインに拡張することで、測定の信頼性と妥当性に関する懸念が高まる。
階層的エラー訂正(HEC)フレームワークを導入し、モデル故障を層間測定誤差(知識ギャップ、推論の制約、複雑性の制約)として扱い、推論に最も影響するレイヤをターゲットにする。
このフレームワークは3段階の手法を実装しており、階層層にまたがる体系的なエラープロファイリング、主要なエラーソースにマッチするターゲットの介入設計、統計的検査による厳密な検証である。
保健コミュニケーション(医療専門分類)、政治コミュニケーション(バイアス検出)、法的タスクにまたがるHECの評価を行い、5つの多種多様な言語モデルを用いてそのアプローチを検証した。
その結果、平均精度は11.2ポイント(p < .001, McNemar's test)となり、系統的な誤分類による安定した結論が得られた。
クロスモデル検証は一貫性のある改善(範囲:+6.8から+14.6pp)を示し、有効性は中程度から高いベースラインタスク(50-85%の精度)に集中している。
境界研究により、非常に高いベースライン(>85%)または精度の高いマッチングタスクのリターンが減少し、適用可能性の限界が確立された。
層状エラーを脅威にマップして構築・基準妥当性を判定し, エラープロファイルの診断, 対象とした介入の選択, 信頼性と妥当性の証拠を, 精度とともに報告するための透過的, 測定第一の青写真を提供する。
これは、コミュニケーション研究と幅広い社会科学をまたいだ自動コーディングに適用される。
関連論文リスト
- OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Advanced Multi-Architecture Deep Learning Framework for BIRADS-Based Mammographic Image Retrieval: Comprehensive Performance Analysis with Super-Ensemble Optimization [0.0]
マンモグラフィ画像検索システムでは、5つの異なるクラスにまたがる正確なBIRADSカテゴリマッチングが必要である。
現在の医用画像検索研究は方法論的限界に悩まされている。
論文 参考訳(メタデータ) (2025-08-06T18:05:18Z) - Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。
この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文 参考訳(メタデータ) (2025-07-25T10:34:51Z) - MalCodeAI: Autonomous Vulnerability Detection and Remediation via Language Agnostic Code Reasoning [0.0]
MalCodeAIは、自律的なコードセキュリティ分析と修復のための言語に依存しないパイプラインである。
コード分解と意味推論をQwen2.5-Coder-3B-Instructモデルで組み合わせる。
MalCodeAIは、レッドハットスタイルのエクスプロイトトレース、CVSSベースのリスクスコアリング、ゼロショットの一般化をサポートし、複雑なゼロデイ脆弱性を検出する。
論文 参考訳(メタデータ) (2025-07-15T01:25:04Z) - Towards Understanding Bugs in Distributed Training and Inference Frameworks for Large Language Models [7.486731499255164]
本稿では,DeepSpeed,Megatron-LM,Colossal-AIの3つの分散トレーニング/推論フレームワークを対象に,308の固定バグの大規模解析を行った。
本研究は, バグ症状, 根本原因, バグの特定と修正の取り組み, および, 一般的な低ストレス修正戦略について検討する。
論文 参考訳(メタデータ) (2025-06-12T07:24:59Z) - Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies [11.0505830548286]
本研究は,MedBench上の上位10モデルの系統的解析を通じて,粒度の誤差分類を導入する。
10つの主要なモデルの評価は、医療知識のリコールにおいて0.86の精度を達成したにもかかわらず、脆弱性を明らかにしている。
知識境界法と多段階推論の体系的弱点を明らかにする。
論文 参考訳(メタデータ) (2025-03-10T13:28:25Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。
既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。
本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。