Fugu-MT 論文翻訳(概要): A Hierarchical Error Framework for Reliable Automated Coding in Communication Research: Applications to Health and Political Communication

論文の概要: A Hierarchical Error Framework for Reliable Automated Coding in Communication Research: Applications to Health and Political Communication

arxiv url: http://arxiv.org/abs/2509.24841v2
Date: Fri, 24 Oct 2025 07:36:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 09:00:15.166339
Title: A Hierarchical Error Framework for Reliable Automated Coding in Communication Research: Applications to Health and Political Communication
Title（参考訳）: コミュニケーション研究における信頼性の高い自動コーディングのための階層的エラーフレームワーク:健康・政治コミュニケーションへの応用
Authors: Zhilong Zhao, Yindi Liu,
Abstract要約: 階層的エラー補正フレームワークを導入し,モデル故障を階層的な測定誤差として扱う。系統的誤分類を減らし, 平均精度が11.2ポイント, 安定した結論が得られた。これは、コミュニケーション研究と幅広い社会科学をまたいだ自動コーディングに適用される。
参考スコア（独自算出の注目度）: 0.23872611575805827
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated content analysis increasingly supports communication research, yet scaling manual coding into computational pipelines raises concerns about measurement reliability and validity. We introduce a Hierarchical Error Correction (HEC) framework that treats model failures as layered measurement errors (knowledge gaps, reasoning limitations, and complexity constraints) and targets the layers that most affect inference. The framework implements a three-phase methodology: systematic error profiling across hierarchical layers, targeted intervention design matched to dominant error sources, and rigorous validation with statistical testing. Evaluating HEC across health communication (medical specialty classification) and political communication (bias detection), and legal tasks, we validate the approach with five diverse large language models. Results show average accuracy gains of 11.2 percentage points (p < .001, McNemar's test) and stable conclusions via reduced systematic misclassification. Cross-model validation demonstrates consistent improvements (range: +6.8 to +14.6pp), with effectiveness concentrated in moderate-to-high baseline tasks (50-85% accuracy). A boundary study reveals diminished returns in very high-baseline (>85%) or precision-matching tasks, establishing applicability limits. We map layered errors to threats to construct and criterion validity and provide a transparent, measurement-first blueprint for diagnosing error profiles, selecting targeted interventions, and reporting reliability/validity evidence alongside accuracy. This applies to automated coding across communication research and the broader social sciences.
Abstract（参考訳）: 自動コンテンツ分析はコミュニケーション研究をますますサポートしているが、手動のコーディングを計算パイプラインに拡張することで、測定の信頼性と妥当性に関する懸念が高まる。階層的エラー訂正(HEC)フレームワークを導入し、モデル故障を層間測定誤差(知識ギャップ、推論の制約、複雑性の制約)として扱い、推論に最も影響するレイヤをターゲットにする。このフレームワークは3段階の手法を実装しており、階層層にまたがる体系的なエラープロファイリング、主要なエラーソースにマッチするターゲットの介入設計、統計的検査による厳密な検証である。保健コミュニケーション(医療専門分類)、政治コミュニケーション(バイアス検出)、法的タスクにまたがるHECの評価を行い、5つの多種多様な言語モデルを用いてそのアプローチを検証した。その結果、平均精度は11.2ポイント(p < .001, McNemar's test)となり、系統的な誤分類による安定した結論が得られた。クロスモデル検証は一貫性のある改善(範囲:+6.8から+14.6pp)を示し、有効性は中程度から高いベースラインタスク(50-85%の精度)に集中している。境界研究により、非常に高いベースライン(>85%)または精度の高いマッチングタスクのリターンが減少し、適用可能性の限界が確立された。層状エラーを脅威にマップして構築・基準妥当性を判定し, エラープロファイルの診断, 対象とした介入の選択, 信頼性と妥当性の証拠を, 精度とともに報告するための透過的, 測定第一の青写真を提供する。これは、コミュニケーション研究と幅広い社会科学をまたいだ自動コーディングに適用される。

関連論文リスト

AdversaRiskQA: An Adversarial Factuality Benchmark for High-Risk Domains [3.721111684544962]
大型言語モデル(LLM)における幻覚は、誤報の拡散と公衆信頼の低下に寄与する。本稿では,最初の検証済みで信頼性の高いベンチマークであるAdversaRiskQAを紹介する。我々は,Qwen,GPT-OSS,GPTファミリーの6つのオープンソースLCMを評価し,誤情報検出率を測定した。
論文参考訳（メタデータ） (2026-01-21T22:47:59Z)
VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文参考訳（メタデータ） (2026-01-19T07:21:19Z)
Conformal Prediction for Multi-Source Detection on a Network [59.17729745907474]
マルチソース検出問題について検討する。グラフ上のノード感染状況のスナップショットが与えられた場合、伝播を開始するソースノードのセットを推定する。本稿では,ソースセット検出のための統計的に有効なリコール保証を提供する新しいコンフォメーション予測フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-12T01:09:56Z)
A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist [1.1731001328350983]
本研究では,専門家検証データセットを用いた行動・メタ認知分析手法を適用した。メトリクスを用いた認知適応と校正誤差の分析:予測誤差(ECE)とベースライン正規化相対誤差(RCE) 以上の結果より, 両モデルとも, 特に臨床ロールプレイング条件下では, 誤診や過信感が顕著であった。
論文参考訳（メタデータ） (2025-10-22T00:15:02Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文参考訳（メタデータ） (2025-08-07T17:54:15Z)
Advanced Multi-Architecture Deep Learning Framework for BIRADS-Based Mammographic Image Retrieval: Comprehensive Performance Analysis with Super-Ensemble Optimization [0.0]
マンモグラフィ画像検索システムでは、5つの異なるクラスにまたがる正確なBIRADSカテゴリマッチングが必要である。現在の医用画像検索研究は方法論的限界に悩まされている。
論文参考訳（メタデータ） (2025-08-06T18:05:18Z)
Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文参考訳（メタデータ） (2025-07-25T10:34:51Z)
MalCodeAI: Autonomous Vulnerability Detection and Remediation via Language Agnostic Code Reasoning [0.0]
MalCodeAIは、自律的なコードセキュリティ分析と修復のための言語に依存しないパイプラインである。コード分解と意味推論をQwen2.5-Coder-3B-Instructモデルで組み合わせる。 MalCodeAIは、レッドハットスタイルのエクスプロイトトレース、CVSSベースのリスクスコアリング、ゼロショットの一般化をサポートし、複雑なゼロデイ脆弱性を検出する。
論文参考訳（メタデータ） (2025-07-15T01:25:04Z)
Towards Understanding Bugs in Distributed Training and Inference Frameworks for Large Language Models [7.486731499255164]
本稿では,DeepSpeed,Megatron-LM,Colossal-AIの3つの分散トレーニング/推論フレームワークを対象に,308の固定バグの大規模解析を行った。本研究は, バグ症状, 根本原因, バグの特定と修正の取り組み, および, 一般的な低ストレス修正戦略について検討する。
論文参考訳（メタデータ） (2025-06-12T07:24:59Z)
On the Interconnections of Calibration, Quantification, and Classifier Accuracy Prediction under Dataset Shift [58.91436551466064]
本稿では,データセットシフト条件下でのキャリブレーションと定量化の3つの基本問題間の相互接続について検討する。これらのタスクのいずれか1つに対するオラクルへのアクセスは、他の2つのタスクの解決を可能にすることを示す。本稿では,他の分野から借用した高度に確立された手法の直接適応に基づく各問題に対する新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-16T15:42:55Z)
Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文参考訳（メタデータ） (2025-03-21T06:12:06Z)
Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies [11.0505830548286]
本研究は,MedBench上の上位10モデルの系統的解析を通じて,粒度の誤差分類を導入する。 10つの主要なモデルの評価は、医療知識のリコールにおいて0.86の精度を達成したにもかかわらず、脆弱性を明らかにしている。知識境界法と多段階推論の体系的弱点を明らかにする。
論文参考訳（メタデータ） (2025-03-10T13:28:25Z)
Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。現在のエラー分類法は静的および事前定義されたカテゴリに依存している。本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文参考訳（メタデータ） (2025-01-26T16:17:57Z)
Semantic Consistency-Based Uncertainty Quantification for Factuality in Radiology Report Generation [20.173287130474797]
生成医療ビジョン大言語モデル(VLLM)は幻覚を起こしやすく、不正確な診断情報を生成できる。報告レベルと文レベルの不確実性の両方を提供するセマンティック一貫性に基づく不確実性定量化フレームワークを新たに導入する。提案手法は,MIMIC-CXRデータセット上のtexttRadialogモデルを用いて,20ドル分のレポートを拒否することで,事実性スコアを10ドル%改善する。
論文参考訳（メタデータ） (2024-12-05T20:43:39Z)
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-11-29T18:58:22Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
Collaborative Boundary-aware Context Encoding Networks for Error Map Prediction [65.44752447868626]
本稿では,AEP-Net と呼ばれる協調的コンテキスト符号化ネットワークを提案する。具体的には、画像とマスクのより優れた特徴融合のための協調的な特徴変換分岐と、エラー領域の正確な局所化を提案する。 AEP-Netはエラー予測タスクの平均DSCが0.8358,0.8164であり、ピアソン相関係数が0.9873である。
論文参考訳（メタデータ） (2020-06-25T12:42:01Z)
NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文参考訳（メタデータ） (2020-06-11T17:39:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。