論文の概要: LED Benchmark: Diagnosing Structural Layout Errors for Document Layout Analysis
- arxiv url: http://arxiv.org/abs/2507.23295v1
- Date: Thu, 31 Jul 2025 07:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.218185
- Title: LED Benchmark: Diagnosing Structural Layout Errors for Document Layout Analysis
- Title(参考訳): LEDベンチマーク: ドキュメントレイアウト分析のための構造レイアウトエラーの診断
- Authors: Inbum Heo, Taewook Hwang, Jeesu Jung, Sangkeun Jung,
- Abstract要約: 本稿では,文書レイアウトの予測構造を評価するための新しいベンチマークを提案する。
LEDは8つの標準エラータイプ、堅牢性を定義し、3つの補完的なタスクを定式化している。
現実的な構造誤差を注入して生成した合成データセットであるLED-Datasetを構築した。
- 参考スコア(独自算出の注目度): 0.9624643581968987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Document Layout Analysis through Large Language Models and Multimodal Models have significantly improved layout detection. However, despite these improvements, challenges remain in addressing critical structural errors, such as region merging, splitting, and missing content. Conventional evaluation metrics like IoU and mAP, which focus primarily on spatial overlap, are insufficient for detecting these errors. To address this limitation, we propose Layout Error Detection (LED), a novel benchmark designed to evaluate the structural robustness of document layout predictions. LED defines eight standardized error types, and formulates three complementary tasks: error existence detection, error type classification, and element-wise error type classification. Furthermore, we construct LED-Dataset, a synthetic dataset generated by injecting realistic structural errors based on empirical distributions from DLA models. Experimental results across a range of LMMs reveal that LED effectively differentiates structural understanding capabilities, exposing modality biases and performance trade-offs not visible through traditional metrics.
- Abstract(参考訳): 大規模言語モデルとマルチモーダルモデルによる文書レイアウト解析の最近の進歩は、レイアウト検出を大幅に改善した。
しかし、これらの改善にもかかわらず、領域のマージ、分割、コンテンツ不足といった重要な構造的エラーに対処する上での課題は残る。
IoUやmAPのような従来の評価基準は、主に空間的重複に焦点を当てており、これらの誤りを検出するには不十分である。
この制限に対処するために、文書レイアウト予測の構造的堅牢性を評価するために設計された新しいベンチマークであるLayout Error Detection (LED)を提案する。
LEDは8つの標準化されたエラータイプを定義し、エラーの存在検出、エラータイプ分類、要素単位のエラータイプ分類という3つの補完的なタスクを定式化している。
さらに,DLAモデルからの経験的分布に基づいて,現実的な構造誤差を注入した合成データセットであるLED-Datasetを構築した。
LMMの様々な実験結果から、LEDは構造理解能力を効果的に差別化し、従来のメトリクスでは見えないモダリティバイアスやパフォーマンストレードオフを露呈することが明らかとなった。
関連論文リスト
- SDIGLM: Leveraging Large Language Models and Multi-Modal Chain of Thought for Structural Damage Identification [2.9239817922453333]
SDIGLMは, マルチモーダル構造損傷同定モデルである。
このマルチモーダル CoT を活用することで、SDIGLM は様々なインフラタイプで95.24%の精度を達成し、構造的損傷の特定において汎用 LMM を超えている。
論文 参考訳(メタデータ) (2025-04-12T11:37:10Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Dependency Structure Misspecification in Multi-Source Weak Supervision
Models [15.125993628007972]
下流分類器のテストセット性能に及ぼすラベルモデルの誤特定の影響について検討した。
我々はモデリング誤差に関する新しい理論的境界を導出し、この誤差が実質的であることを実証的に示す。
論文 参考訳(メタデータ) (2021-06-18T18:15:44Z) - NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。
既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。
本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。