論文の概要: Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models
- arxiv url: http://arxiv.org/abs/2504.13068v2
- Date: Thu, 01 May 2025 23:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 13:22:23.420664
- Title: Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models
- Title(参考訳): 正確性は一致しない: クラッシュナラティブ分類モデルのエキスパートアライズド評価
- Authors: Sudesh Ramesh Bhagat, Ibne Farabi Shihab, Anuj Sharma,
- Abstract要約: 本研究では,Deep Learning(DL)モデルの精度と,クラッシュ物語の分類における専門家合意との関係について検討した。
専門家のラベルや物語に対して5つのDLモデルを評価し、分析を4つの大言語モデル(LLM)に拡張する。
高い精度のモデルでは、人間の専門家との一致度が低い場合が多いが、LSMでは精度が低いにもかかわらず、専門家のアライメントが強い場合が多い。
- 参考スコア(独自算出の注目度): 2.1797343876622097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the relationship between deep learning (DL) model accuracy and expert agreement in classifying crash narratives. We evaluate five DL models -- including BERT variants, USE, and a zero-shot classifier -- against expert labels and narratives, and extend the analysis to four large language models (LLMs): GPT-4, LLaMA 3, Qwen, and Claude. Our findings reveal an inverse relationship: models with higher technical accuracy often show lower agreement with human experts, while LLMs demonstrate stronger expert alignment despite lower accuracy. We use Cohen's Kappa and Principal Component Analysis (PCA) to quantify and visualize model-expert agreement, and employ SHAP analysis to explain misclassifications. Results show that expert-aligned models rely more on contextual and temporal cues than location-specific keywords. These findings suggest that accuracy alone is insufficient for safety-critical NLP tasks. We argue for incorporating expert agreement into model evaluation frameworks and highlight the potential of LLMs as interpretable tools in crash analysis pipelines.
- Abstract(参考訳): 本研究では,Deep Learning(DL)モデルの精度と,クラッシュ物語の分類における専門家合意との関係について検討した。
GPT-4, LLaMA 3, Qwen, Claude の4つの大言語モデル (LLM) に解析を拡張し, BERT 変種, USE, ゼロショット分類器を含む5つのDLモデルを評価する。
高い精度のモデルでは、人間の専門家との一致度が低い場合が多いが、LSMでは精度が低いにもかかわらず、専門家のアライメントが強い場合が多い。
我々はCohenのKappaとPrincipal Component Analysis(PCA)を用いてモデル-専門家合意の定量化と視覚化を行い、SHAP分析を用いて誤分類を説明する。
結果から,専門家対応モデルは位置特化キーワードよりも文脈的・時間的手がかりに依存していることがわかった。
これらの結果から,安全クリティカルなNLPタスクでは精度だけでは不十分であることが示唆された。
我々は,モデル評価フレームワークに専門家合意を取り入れ,クラッシュ解析パイプラインにおける解釈可能なツールとしてのLLMの可能性を強調した。
関連論文リスト
- Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning [5.4141465747474475]
大規模言語モデル(LLM)は、人間のようなテキストを生成し、適度な複雑さの問題を解くことで、顕著な性能を達成した。
概念ネット知識グラフを用いて,LLMにおける抽象的常識推論を体系的に評価する。
論文 参考訳(メタデータ) (2025-02-19T20:20:24Z) - The Reliability Paradox: Exploring How Shortcut Learning Undermines Language Model Calibration [5.616884466478886]
プレトレーニング言語モデル(PLM)は、自然言語処理の分野で大きなパフォーマンス向上を実現している。
近年の研究では、PLMは誤校正に悩まされており、これらのモデルによる信頼度推定の精度の欠如が示唆されている。
本稿では,低校正誤差が言語モデルの信頼性決定ルールを意味するか否かを考察する。
論文 参考訳(メタデータ) (2024-12-17T08:04:28Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - Explaining word embeddings with perfect fidelity: Case study in research impact prediction [0.0]
単語埋め込みを訓練したロジスティック回帰に基づく分類モデルのための自己モデルRated Entities (SMER)。
SMERは,テキスト中の個々の単語の予測平均と正確に一致するので,理論上は説明モデルと完全に一致していることを示す。
論文 参考訳(メタデータ) (2024-09-24T09:28:24Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Detection [10.301985230669684]
本稿では,ニュース見出しにおけるフレーミングの検出において,GPT-4,GPT-3.5 Turbo,FLAN-T5モデルを包括的に分析する。
我々はこれらのモデルを,ゼロショット,ドメイン内例による少数ショット,クロスドメイン例,モデルが予測を説明する設定など,さまざまなシナリオで評価した。
論文 参考訳(メタデータ) (2024-02-18T15:27:48Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。