論文の概要: The COTe score: A decomposable framework for evaluating Document Layout Analysis models
- arxiv url: http://arxiv.org/abs/2603.12718v2
- Date: Mon, 16 Mar 2026 15:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.697567
- Title: The COTe score: A decomposable framework for evaluating Document Layout Analysis models
- Title(参考訳): COTeスコア:ドキュメントレイアウト分析モデルを評価するための分解可能なフレームワーク
- Authors: Jonathan Bourne, Mwiza Simbeye, Ishtar Govia,
- Abstract要約: ドキュメントレイアウト分析(DLA)は、ページを意味のある要素に解析するプロセスである。
構造意味単位 (Structure Semantic Unit, SSU) は、コンテンツの物理的構造から意味的構造へ焦点を移すリレーショナルラベリング手法である。
私たちは、COTeスコアが従来のメトリクスよりも有益であることを示し、モデル間で異なる障害モードを明らかにします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Layout analysis (DLA), is the process by which a page is parsed into meaningful elements, often using machine learning models. Typically, the quality of a model is judged using general object detection metrics such as IoU, F1 or mAP. However, these metrics are designed for images that are 2D projections of 3D space, not for the natively 2D imagery of printed media. This discrepancy can result in misleading or uninformative interpretation of model performance by the metrics. To encourage more robust, comparable, and nuanced DLA, we introduce: The Structural Semantic Unit (SSU) a relational labelling approach that shifts the focus from the physical to the semantic structure of the content; and the Coverage, Overlap, Trespass, and Excess (COTe) score, a decomposable metric for measuring page parsing quality. We demonstrate the value of these methods through case studies and by evaluating 5 common DLA models on 3 DLA datasets. We show that the COTe score is more informative than traditional metrics and reveals distinct failure modes across models, such as breaching semantic boundaries or repeatedly parsing the same region. In addition, the COTe score reduces the interpretation-performance gap by up to 76% relative to the F1. Notably, we find that the COTe's granularity robustness largely holds even without explicit SSU labelling, lowering the barriers to entry for using the system. Finally, we release an SSU labelled dataset and a Python library for applying COTe in DLA projects.
- Abstract(参考訳): Document Layout Analysis(DLA)は、ページを意味のある要素に解析するプロセスである。
通常、モデルの品質は、IoU、F1、mAPなどの一般的なオブジェクト検出指標を用いて判断される。
しかし、これらのメトリクスは3D空間の2Dプロジェクションであるイメージのために設計されており、印刷媒体のネイティブな2Dイメージのためではない。
この違いは、メトリクスによるモデルパフォーマンスの誤解を招くか、あるいは非形式的解釈をもたらす可能性がある。
SSU(Structure Semantic Unit)は、コンテンツの物理的構造からセマンティック構造へ焦点を移すリレーショナルラベリングアプローチであり、ページ解析品質を測定するための分解可能なメトリクスであるCoverage, Overlap, Trespass, Excess(COTe)スコアである。
ケーススタディおよび3つのDLAデータセット上での5つの共通DLAモデルの評価により、これらの手法の価値を実証する。
私たちはCOTeスコアが従来のメトリクスよりも有益であることを示し、セマンティック境界の違反や同じ領域の繰り返し解析など、モデル間で異なる障害モードを明らかにします。
さらに、COTeスコアは、F1と比較して解釈性能ギャップを最大76%削減する。
特に,COTeの粒度頑健性は,SSUラベルを明示せずにも大きく保たれ,システム利用の障壁を低くすることがわかった。
最後に、DLAプロジェクトでCOTeを適用するためのSSUラベル付きデータセットとPythonライブラリをリリースする。
関連論文リスト
- Evaluating Generative Models via One-Dimensional Code Distributions [20.971484798914158]
現代の1D画像トークンライザは、セマンティック情報と知覚情報の両方を予測可能なトークン統計としてエンコードしている。
トークン空間におけるトレーニング不要分布指標であるCodebook Histogram Distance(CHD)とCode Mixture Model Score(CMMS)を紹介する。
本研究では,62の視覚形態と12の生成モデルからなる210K画像のベンチマークであるVisFormを提案する。
論文 参考訳(メタデータ) (2026-03-09T07:57:56Z) - HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。
提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文 参考訳(メタデータ) (2024-07-26T08:24:30Z) - Hierarchical Insights: Exploiting Structural Similarities for Reliable 3D Semantic Segmentation [4.480310276450028]
本稿では,抽象を通してクラス間の構造的関係を学習する3次元LiDARセマンティックセマンティックセマンティクスモデルのトレーニング戦略を提案する。
これは、階層的マルチラベル分類(HMC)のための学習規則を用いて、これらの関係を暗黙的にモデル化することで達成される。
詳細な分析により、このトレーニング戦略はモデルの信頼性校正を改善するだけでなく、融合、予測、計画といった下流タスクに有用な追加情報を保持することが示される。
論文 参考訳(メタデータ) (2024-04-09T08:49:01Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Evaluation Metrics for Conditional Image Generation [100.69766435176557]
クラス条件画像生成設定において生成モデルを評価するための2つの新しい指標を提案する。
理論的分析は、提案されたメトリクスの背景にあるモチベーションを示し、新しいメトリクスと条件のないメトリクスを結びつける。
我々は,実験的な評価を行い,その指標を条件のない変種や他の指標と比較し,既存の生成モデルの解析に利用した。
論文 参考訳(メタデータ) (2020-04-26T12:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。