論文の概要: ErrorMap and ErrorAtlas: Charting the Failure Landscape of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.15812v1
- Date: Thu, 22 Jan 2026 09:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.566558
- Title: ErrorMap and ErrorAtlas: Charting the Failure Landscape of Large Language Models
- Title(参考訳): ErrorMapとErrorAtlas:大規模言語モデルの失敗ランドスケープをグラフ化
- Authors: Shir Ashury-Tahan, Yifan Mai, Elron Bandel, Michal Shmueli-Scheuer, Leshem Choshen,
- Abstract要約: ErrorMapはLarge Language Models失敗の原因をグラフ化する最初の方法です。
モデルは独自の"障害シグネチャ"を抽出し、ベンチマークの計測値を明確にし、エラー識別を拡張して盲点を減らす。
この手法を35のデータセットと83のモデルに適用すると、モデルエラーの分類であるErrorAtlasを生成し、繰り返し発生する障害パターンを明らかにする。
- 参考スコア(独自算出の注目度): 19.07658752853847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLM) benchmarks tell us when models fail, but not why they fail. A wrong answer on a reasoning dataset may stem from formatting issues, calculation errors, or dataset noise rather than weak reasoning. Without disentangling such causes, benchmarks remain incomplete and cannot reliably guide model improvement. We introduce ErrorMap, the first method to chart the sources of LLM failure. It extracts a model's unique "failure signature", clarifies what benchmarks measure, and broadens error identification to reduce blind spots. This helps developers debug models, aligns benchmark goals with outcomes, and supports informed model selection. ErrorMap works on any model or dataset with the same logic. Applying our method to 35 datasets and 83 models we generate ErrorAtlas, a taxonomy of model errors, revealing recurring failure patterns. ErrorAtlas highlights error types that are currently underexplored in LLM research, such as omissions of required details in the output and question misinterpretation. By shifting focus from where models succeed to why they fail, ErrorMap and ErrorAtlas enable advanced evaluation - one that exposes hidden weaknesses and directs progress. Unlike success, typically measured by task-level metrics, our approach introduces a deeper evaluation layer that can be applied globally across models and tasks, offering richer insights into model behavior and limitations. We make the taxonomy and code publicly available with plans to periodically update ErrorAtlas as new benchmarks and models emerge.
- Abstract(参考訳): 大きな言語モデル(LLM)ベンチマークは、モデルが失敗する理由ではなく、モデルが失敗する理由を教えてくれます。
推論データセットの間違った答えは、弱い推論ではなく、問題のフォーマット、計算エラー、データセットノイズに起因する可能性がある。
このような原因を解消しなければ、ベンチマークは不完全であり、モデルの改善を確実に導くことはできない。
LLM障害の発生源をグラフ化する最初の方法であるErrorMapを紹介する。
モデルは独自の"障害シグネチャ"を抽出し、ベンチマークの計測値を明確にし、エラー識別を拡張して盲点を減らす。
これにより、開発者はモデルをデバッグし、ベンチマークの目標を結果と整合させ、インフォームドモデル選択をサポートする。
ErrorMapは、同じロジックを持つ任意のモデルやデータセットで動作する。
この手法を35のデータセットと83のモデルに適用すると、モデルエラーの分類であるErrorAtlasを生成し、繰り返し発生する障害パターンを明らかにする。
ErrorAtlas は LLM の研究で現在探索されていない誤りの種類を強調している。
ErrorMapとErrorAtlasは、モデルが失敗した理由に焦点を移すことで、高度な評価を可能にします。
一般的にタスクレベルのメトリクスによって測定される成功とは違って,私たちのアプローチでは,モデルやタスクを世界規模で適用可能な,より深い評価レイヤを導入しています。
新しいベンチマークやモデルが出現するにつれて、ErrorAtlasを定期的に更新する計画です。
関連論文リスト
- MMErroR: A Benchmark for Erroneous Reasoning in Vision-Language Models [29.830224745428566]
2,013個のサンプルを1つのコヒーレントな推論誤差に埋め込んだベンチマークであるMMErroRを提案する。
MMErroRは、回答の正しさに焦点を当てた既存のベンチマークとは異なり、プロセスレベル、エラー中心の評価をターゲットにしている。
最良モデル(Gemini-3.0-Pro)でさえ、66.47%のケースでエラーを分類する。
論文 参考訳(メタデータ) (2026-01-06T17:45:26Z) - MINERVA: Evaluating Complex Video Reasoning [72.12644008002566]
我々は、最新のマルチモーダルモデルのためのMINERVAと呼ばれる新しいビデオ推論データセットを提供する。
我々のデータセットはマルチモーダルであり、ビデオ領域と長さの点で多様であり、複雑なマルチステップの質問で構成されている。
我々は,様々なモデルにまたがる共通障害モードを特定するために,きめ細かいエラー解析を行い,推論エラーの分類を作成する。
論文 参考訳(メタデータ) (2025-05-01T17:41:49Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - LADDER: Language Driven Slice Discovery and Error Rectification [16.146099639239615]
現在のクラスタリングや離散属性ベースのスライス発見メソッドは、重要な制限に直面している。
我々は,(1)不完全性に対処するために自然言語の柔軟性を活用すること,(2)LLMの潜在的テクストドメイン知識と高度な推論を用いて文を分析し,仮説を直接導出する,という制限に対処することを提案する。
厳密な評価は、ラダーがバイアスを発見し緩和する際に、既存のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-07-31T14:49:35Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。