論文の概要: LED: A Benchmark for Evaluating Layout Error Detection in Document Analysis
- arxiv url: http://arxiv.org/abs/2603.17265v1
- Date: Wed, 18 Mar 2026 01:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.471291
- Title: LED: A Benchmark for Evaluating Layout Error Detection in Document Analysis
- Title(参考訳): LED: 文書解析におけるレイアウトエラー検出のベンチマーク
- Authors: Inbum Heo, Taewook Hwang, Jeesu Jung, Sangkeun Jung,
- Abstract要約: 本研究では,DLA予測における構造的推論を表面レベルの精度を超えて評価するベンチマークを提案する。
LEDは8種類の標準エラータイプ(ミス、幻覚、サイズエラー、スプリット、マージ、オーバーラップ、重複、誤分類)を定義している。
文書レベルのエラー検出、文書レベルのエラータイプ分類、要素レベルのエラータイプ分類という3つの評価タスクを設計する。
- 参考スコア(独自算出の注目度): 5.016480897268685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) and Large Multimodal Models (LMMs) have improved Document Layout Analysis (DLA), yet structural errors such as region merging, splitting, and omission remain persistent. Conventional overlap-based metrics (e.g., IoU, mAP) fail to capture such logical inconsistencies. To overcome this limitation, we propose Layout Error Detection (LED), a benchmark that evaluates structural reasoning in DLA predictions beyond surface-level accuracy. LED defines eight standardized error types (Missing, Hallucination, Size Error, Split, Merge, Overlap, Duplicate, and Misclassification) and provides quantitative rules and injection algorithms for realistic error simulation. Using these definitions, we construct LED-Dataset and design three evaluation tasks: document-level error detection, document-level error-type classification, and element-level error-type classification. Experiments with state-of-the-art multimodal models show that LED enables fine-grained and interpretable assessment of structural understanding, revealing clear weaknesses across modalities and architectures. Overall, LED establishes a unified and explainable benchmark for diagnosing the structural robustness and reasoning capability of document understanding models.
- Abstract(参考訳): 大規模言語モデル (LLMs) と大規模マルチモーダルモデル (LMMs) の最近の進歩は文書レイアウト解析 (DLA) を改善しているが、領域のマージ、分割、省略といった構造的誤りは引き続き持続している。
従来の重複ベースのメトリクス(例えば、IoU、mAP)は、そのような論理的不整合を捉えることができない。
この制限を克服するために、DLA予測における構造的推論を表面レベルの精度を超えて評価するベンチマークであるLayout Error Detection (LED)を提案する。
LEDは8つの標準化されたエラータイプ(ミス、ハロシン化、サイズエラー、スプリット、マージ、オーバーラップ、Duplicate、ミスクラス化)を定義し、リアルなエラーシミュレーションのための量的ルールとインジェクションアルゴリズムを提供する。
これらの定義を用いて、LEDデータセットを構築し、文書レベルのエラー検出、文書レベルのエラータイプ分類、要素レベルのエラータイプ分類という3つの評価タスクを設計する。
最先端のマルチモーダルモデルによる実験では、LEDは構造的理解のきめ細やかで解釈可能な評価を可能にし、モダリティやアーキテクチャにまたがる明確な弱点を明らかにしている。
全体として、LEDは文書理解モデルの構造的堅牢性と推論能力を診断するための統一的で説明可能なベンチマークを確立している。
関連論文リスト
- X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes [11.988348978958376]
大規模言語モデル(LLM)は有望な性能を達成するが、その推論能力はいまだによく分かっていない。
我々は、校正された正式に検証されたプローブを用いてLCM推論能力をマッピングする説明可能な推論分析システムであるX線について述べる。
数学,物理学,化学の分野において,中等レベルから高度な問題に対する現状のLSMの評価を行った。
論文 参考訳(メタデータ) (2026-03-05T15:34:22Z) - PaperAudit-Bench: Benchmarking Error Detection in Research Papers for Critical Automated Peer Review [54.141490756509306]
本稿では、エラーデータセットであるPaperAudit-Datasetと、自動レビューフレームワークであるPaperAudit-Reviewの2つのコンポーネントからなるPaperAudit-Benchを紹介する。
PaperAudit-Benchの実験では、モデルと検出深さの誤差検出可能性に大きなばらつきが示された。
本研究では,SFTおよびRLによる軽量LLM検出器のトレーニングをサポートし,計算コストの削減による効率的な誤り検出を実現する。
論文 参考訳(メタデータ) (2026-01-07T04:26:12Z) - NeXT-IMDL: Build Benchmark for NeXT-Generation Image Manipulation Detection & Localization [67.84497768987023]
NeXT-IMDLは、現在の検出器の境界を調査するために設計された大規模な診断ベンチマークである。
NeXT-IMDLはAIGCベースの操作を、編集モデル、操作タイプ、コンテンツセマンティクス、偽造の4つの基本軸に沿って分類する。
11の代表的なモデルに対する我々の実験では、これらのモデルが元の設定でうまく機能する一方で、システム障害と大幅な性能低下を示しています。
論文 参考訳(メタデータ) (2025-12-29T11:09:35Z) - LED Benchmark: Diagnosing Structural Layout Errors for Document Layout Analysis [0.9624643581968987]
本稿では,文書レイアウトの予測構造を評価するための新しいベンチマークを提案する。
LEDは8つの標準エラータイプ、堅牢性を定義し、3つの補完的なタスクを定式化している。
現実的な構造誤差を注入して生成した合成データセットであるLED-Datasetを構築した。
論文 参考訳(メタデータ) (2025-07-31T07:22:49Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - SDIGLM: Leveraging Large Language Models and Multi-Modal Chain of Thought for Structural Damage Identification [2.9239817922453333]
SDIGLMは, マルチモーダル構造損傷同定モデルである。
このマルチモーダル CoT を活用することで、SDIGLM は様々なインフラタイプで95.24%の精度を達成し、構造的損傷の特定において汎用 LMM を超えている。
論文 参考訳(メタデータ) (2025-04-12T11:37:10Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - FaultExplainer: Leveraging Large Language Models for Interpretable Fault Detection and Diagnosis [7.161558367924948]
本稿では,テネシー・イーストマン・プロセス(TEP)における障害検出,診断,説明の改善を目的とした対話型ツールであるFactExplainerを提案する。
FaultExplainerは、リアルタイムセンサデータ可視化、主成分分析(PCA)に基づく障害検出、および大規模言語モデル(LLM)を利用した対話型ユーザインタフェースにおける上位コントリビューション変数の識別を統合する。
2つのシナリオでLLMの推論能力を評価する。1つは歴史的根本原因が提供される場合であり、もう1つは以前に見つからなかった障害の課題を模倣しない場合である。
論文 参考訳(メタデータ) (2024-12-19T03:35:06Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。