Fugu-MT 論文翻訳(概要): Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models

論文の概要: Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models

arxiv url: http://arxiv.org/abs/2504.13068v1
Date: Thu, 17 Apr 2025 16:29:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 17:47:52.643709
Title: Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models
Title（参考訳）: 正確性は一致しない: クラッシュナラティブ分類モデルのエキスパートアライズド評価
Authors: Sudesh Ramesh Bhagat, Ibne Farabi Shihab, Anuj Sharma,
Abstract要約: 本研究では,Deep Learning(DL)モデルの精度と,クラッシュ物語の分類における専門家合意との関係について検討する。我々は、専門家ラベル付きデータや物語テキストに対して、BERTの変種やUSE(Universal Sentence)を含む5つのDLモデルを評価する。専門家対応モデルは、位置特化キーワードよりも、文脈的および時間的言語的手がかりに依存する傾向にある。
参考スコア（独自算出の注目度）: 2.1797343876622097
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study explores the relationship between deep learning (DL) model accuracy and expert agreement in the classification of crash narratives. We evaluate five DL models -- including BERT variants, the Universal Sentence Encoder (USE), and a zero-shot classifier -- against expert-labeled data and narrative text. The analysis is further extended to four large language models (LLMs): GPT-4, LLaMA 3, Qwen, and Claude. Our results reveal a counterintuitive trend: models with higher technical accuracy often exhibit lower agreement with domain experts, whereas LLMs demonstrate greater expert alignment despite relatively lower accuracy scores. To quantify and interpret model-expert agreement, we employ Cohen's Kappa, Principal Component Analysis (PCA), and SHAP-based explainability techniques. Findings indicate that expert-aligned models tend to rely more on contextual and temporal language cues, rather than location-specific keywords. These results underscore that accuracy alone is insufficient for evaluating models in safety-critical NLP applications. We advocate for incorporating expert agreement as a complementary metric in model evaluation frameworks and highlight the promise of LLMs as interpretable, scalable tools for crash analysis pipelines.
Abstract（参考訳）: 本研究では,Deep Learning(DL)モデルの精度と,クラッシュ物語の分類における専門家合意との関係について検討する。我々は、専門家ラベル付きデータと物語テキストに対して、BERTの変種、Universal Sentence Encoder(USE)、ゼロショット分類器を含む5つのDLモデルを評価する。さらに、GPT-4、LLaMA 3、Qwen、Claudeの4つの大きな言語モデル(LLM)に拡張されている。高い精度のモデルではドメインの専門家との一致度が低いことが多いが,LSMでは比較的低い精度で専門家のアライメントが向上している。モデル-専門家合意の定量化と解釈には、コーエンのKappa、主成分分析(PCA)、SHAPに基づく説明可能性技術を用いる。専門家対応モデルは、位置特化キーワードよりも、文脈的および時間的言語的手がかりに依存する傾向にある。これらの結果は、安全クリティカルなNLPアプリケーションのモデルを評価するには精度だけでは不十分であることを示す。我々は、モデル評価フレームワークに専門家合意を補完する指標として組み込むことを提唱し、LCMの約束をクラッシュ解析パイプラインの解釈可能でスケーラブルなツールとして強調する。

関連論文リスト

Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning [5.4141465747474475]
大規模言語モデル(LLM)は、人間のようなテキストを生成し、適度な複雑さの問題を解くことで、顕著な性能を達成した。概念ネット知識グラフを用いて,LLMにおける抽象的常識推論を体系的に評価する。
論文参考訳（メタデータ） (2025-02-19T20:20:24Z)
The Reliability Paradox: Exploring How Shortcut Learning Undermines Language Model Calibration [5.616884466478886]
プレトレーニング言語モデル(PLM)は、自然言語処理の分野で大きなパフォーマンス向上を実現している。近年の研究では、PLMは誤校正に悩まされており、これらのモデルによる信頼度推定の精度の欠如が示唆されている。本稿では,低校正誤差が言語モデルの信頼性決定ルールを意味するか否かを考察する。
論文参考訳（メタデータ） (2024-12-17T08:04:28Z)
A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文参考訳（メタデータ） (2024-12-12T16:04:31Z)
Explaining word embeddings with perfect fidelity: Case study in research impact prediction [0.0]
単語埋め込みを訓練したロジスティック回帰に基づく分類モデルのための自己モデルRated Entities (SMER)。 SMERは,テキスト中の個々の単語の予測平均と正確に一致するので,理論上は説明モデルと完全に一致していることを示す。
論文参考訳（メタデータ） (2024-09-24T09:28:24Z)
Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文参考訳（メタデータ） (2024-06-12T16:41:31Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。 GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文参考訳（メタデータ） (2024-02-20T18:31:27Z)
Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Detection [10.301985230669684]
本稿では,ニュース見出しにおけるフレーミングの検出において,GPT-4,GPT-3.5 Turbo,FLAN-T5モデルを包括的に分析する。我々はこれらのモデルを,ゼロショット,ドメイン内例による少数ショット,クロスドメイン例,モデルが予測を説明する設定など,さまざまなシナリオで評価した。
論文参考訳（メタデータ） (2024-02-18T15:27:48Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
"You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文参考訳（メタデータ） (2023-10-26T21:47:59Z)
Automating construction contract review using knowledge graph-enhanced large language models [1.50580995941543]
本稿では,大規模言語モデル (LLMs) と知識グラフ (KGs) を統合することで,自動契約リスク識別の精度と解釈可能性を高めることができるかを検討する。 LLMとNested Contract Knowledge Graph(NCKG)を統合し,Graph Retrieval-Augmented Generation(GraphRAG)フレームワークを用いて,契約知識の検索と推論を行う。国際的なEPC契約に基づいてテストし、ベースラインモデルよりも正確なリスク評価と解釈可能なリスクサマリーを実現する。
論文参考訳（メタデータ） (2023-09-21T14:53:36Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文参考訳（メタデータ） (2023-07-25T17:02:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。