論文の概要: Rethinking Detection Based Table Structure Recognition for Visually Rich
Document Images
- arxiv url: http://arxiv.org/abs/2312.00699v2
- Date: Wed, 10 Jan 2024 15:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 16:39:23.017652
- Title: Rethinking Detection Based Table Structure Recognition for Visually Rich
Document Images
- Title(参考訳): ビジュアルリッチな文書画像に対する検出に基づくテーブル構造認識の再考
- Authors: Bin Xiao, Murat Simsek, Burak Kantarci, Ala Abu Alkheir
- Abstract要約: テーブル構造認識(TSR)は、非構造化テーブルイメージをHTMLシーケンスなどの構造化フォーマットに変換することを目的とした、広く議論されている課題である。
あるタイプのソリューションでは、検出モデルを使用して列や行などのテーブルコンポーネントを検出し、その後、ルールベースの後処理手法を適用して、検出結果をHTMLシーケンスに変換する。
既存の検出ベースモデルを再検討し、これらのモデルの性能を妨げる根本的な理由を探る。
- 参考スコア(独自算出の注目度): 17.846536373106268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table Structure Recognition (TSR) is a widely discussed task aiming at
transforming unstructured table images into structured formats, such as HTML
sequences, to make text-only models, such as ChatGPT, that can further process
these tables. One type of solution is using detection models to detect table
components, such as columns and rows, then applying a rule-based
post-processing method to convert detection results into HTML sequences.
However, existing detection-based models usually cannot perform as well as
other types of solutions regarding cell-level TSR metrics, such as TEDS, and
the underlying reasons limiting the performance of these models on the TSR task
are also not well-explored. Therefore, we revisit existing detection-based
models comprehensively and explore the underlying reasons hindering these
models' performance, including the improper problem definition, the mismatch
issue of detection and TSR metrics, the characteristics of detection models,
and the impact of local and long-range features extraction. Based on our
analysis and findings, we apply simple methods to tailor a typical two-stage
detection model, Cascade R-CNN, for the TSR task. The experimental results show
that the tailored Cascade R-CNN based model can improve the base Cascade R-CNN
model by 16.35\% on the FinTabNet dataset regarding the structure-only TEDS,
outperforming other types of state-of-the-art methods, demonstrating that our
findings can be a guideline for improving detection-based TSR models and that a
purely detection-based solution is competitive with other types of solutions,
such as graph-based and image-to-sequence solutions.
- Abstract(参考訳): テーブル構造認識(TSR)は、構造化されていないテーブルイメージをHTMLシーケンスなどの構造化フォーマットに変換し、ChatGPTのようなテキストのみのモデルを作成することを目的とした、広く議論されているタスクである。
検出モデルを使用して、列や行などのテーブルコンポーネントを検出し、その後、ルールベースのポストプロセッシング手法を適用して、検出結果をhtmlシーケンスに変換する。
しかし、既存の検出ベースモデルは、TEDSのような細胞レベルのTSRメトリクスに関する他のタイプのソリューションと同様に、動作できない。
そこで我々は,既存の検出ベースモデルを包括的に再検討し,不適切な問題定義,検出とTSRメトリクスのミスマッチ問題,検出モデルの特徴,局所的および長距離的特徴抽出の影響など,これらのモデルの性能を阻害する基礎となる理由を探る。
解析と結果に基づいて、TSRタスクに典型的な2段階検出モデルCascade R-CNNを調整するための簡単な手法を適用する。
実験の結果,fintabnet データセット上で構造のみの ted に対して 16.35 % の精度でベースカスケード r-cnn モデルの改善が可能となり,検出に基づく tsr モデルの改善の指針となり得ること,純粋に検出に基づくソリューションがグラフベースやイメージ・ツー・シークエンスソリューションといった他の種類のソリューションと競合できることが判明した。
関連論文リスト
- DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。
FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。
限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文 参考訳(メタデータ) (2024-03-27T02:24:00Z) - Learning Unified Reference Representation for Unsupervised Multi-class Anomaly Detection [38.07468257801517]
RLRと呼ばれる新しい特徴再構成に基づく異常検出フレームワークを提案する。
RLRは学習可能な参照表現を使用して、モデルに正常な特徴パターンを明示的に学習するように強制する。
15カテゴリのMVTec-ADデータセットと12カテゴリのVisAデータセットによるRLRの評価は、最先端の手法と比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-18T08:29:47Z) - AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding [29.07617945233152]
データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。
このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。
本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Evaluation and Comparison of Deep Learning Methods for Pavement Crack
Identification with Visual Images [0.0]
ディープラーニングアルゴリズムによる視覚画像による舗装き裂の識別は、検出対象の材料によって制限されないという利点がある。
パッチサンプル分類の面では、細調整されたTLモデルはEDモデルと精度で同等またはわずかに良い。
正確なクラック位置の面では、EDアルゴリズムとGANアルゴリズムの両方がピクセルレベルのセグメンテーションを達成でき、低演算パワープラットフォーム上でリアルタイムに検出されることが期待できる。
論文 参考訳(メタデータ) (2021-12-20T08:23:43Z) - Robust lEarned Shrinkage-Thresholding (REST): Robust unrolling for
sparse recover [87.28082715343896]
我々は、モデルミス特定を前進させるのに堅牢な逆問題を解決するためのディープニューラルネットワークについて検討する。
我々は,アルゴリズムの展開手法を根底にある回復問題のロバストバージョンに適用することにより,新しい堅牢なディープニューラルネットワークアーキテクチャを設計する。
提案したRESTネットワークは,圧縮センシングとレーダイメージングの両問題において,最先端のモデルベースおよびデータ駆動アルゴリズムを上回る性能を示す。
論文 参考訳(メタデータ) (2021-10-20T06:15:45Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。