論文の概要: Rethinking Detection Based Table Structure Recognition for Visually Rich
Documents
- arxiv url: http://arxiv.org/abs/2312.00699v1
- Date: Fri, 1 Dec 2023 16:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 14:01:29.021242
- Title: Rethinking Detection Based Table Structure Recognition for Visually Rich
Documents
- Title(参考訳): ビジュアルリッチ文書における検出に基づくテーブル構造認識の再考
- Authors: Bin Xiao, Murat Simsek, Burak Kantarci, Ala Abu Alkheir
- Abstract要約: テーブル構造認識(TSR)は、構造化されていないテーブルイメージをHTMLシーケンスなどの構造化フォーマットに変換することを目的としている。
一般的なソリューションの1つのタイプは、検出モデルを使用して、列や行などのテーブルのコンポーネントを検出し、次にルールベースの後処理を適用して、検出結果をHTMLシーケンスに変換することである。
- 参考スコア(独自算出の注目度): 17.846536373106268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table Structure Recognition (TSR) aims at transforming unstructured table
images into structured formats, such as HTML sequences. One type of popular
solution is using detection models to detect components of a table, such as
columns and rows, then applying a rule-based post-processing method to convert
detection results into HTML sequences. However, existing detection-based
studies often have the following limitations. First, these studies usually pay
more attention to improving the detection performance, which does not
necessarily lead to better performance regarding cell-level metrics, such as
TEDS. Second, some solutions over-simplify the problem and can miss some
critical information. Lastly, even though some studies defined the problem to
detect more components to provide as much information as other types of
solutions, these studies ignore the fact this problem definition is a
multi-label detection because row, projected row header and column header can
share identical bounding boxes. Besides, there is often a performance gap
between two-stage and transformer-based detection models regarding the
structure-only TEDS, even though they have similar performance regarding the
COCO metrics. Therefore, we revisit the limitations of existing detection-based
solutions, compare two-stage and transformer-based detection models, and
identify the key design aspects for the success of a two-stage detection model
for the TSR task, including the multi-class problem definition, the aspect
ratio for anchor box generation, and the feature generation of the backbone
network. We applied simple methods to improve these aspects of the Cascade
R-CNN model, achieved state-of-the-art performance, and improved the baseline
Cascade R-CNN model by 19.32%, 11.56% and 14.77% regarding the structure-only
TEDS on SciTSR, FinTabNet, and PubTables1M datasets.
- Abstract(参考訳): テーブル構造認識(tsr)は、非構造化テーブルイメージをhtmlシーケンスのような構造化フォーマットに変換することを目的としている。
一般的なソリューションの1つのタイプは、検出モデルを使用して、列や行などのテーブルのコンポーネントを検出し、次にルールベースの後処理を適用して、検出結果をHTMLシーケンスに変換することである。
しかし、既存の検出に基づく研究は、しばしば以下の制限がある。
第一に、これらの研究は通常、検出性能の改善に注意を払うが、TEDSのような細胞レベルのメトリクスに関して、必ずしもより良いパフォーマンスをもたらすとは限らない。
第二に、いくつかのソリューションは問題を単純化し、重要な情報を見逃す可能性がある。
最後に、いくつかの研究では、他のタイプのソリューションと同程度の情報を提供するためにより多くのコンポーネントを検出する問題を定義しているが、行、投影された行ヘッダ、列ヘッダが同一のバウンディングボックスを共有することができるため、この問題定義がマルチラベル検出であるという事実を無視する。
さらに、COCOメトリクスに関して同様のパフォーマンスを持つにもかかわらず、構造のみのTEDSに関して、2段階とトランスフォーマーベースの検出モデルの間には、しばしばパフォーマンスギャップがある。
そこで我々は,既存の検出ベースソリューションの限界を再考し,2段階およびトランスフォーマーベースの検出モデルを比較し,マルチクラス問題定義,アンカーボックス生成のアスペクト比,バックボーンネットワークの機能生成を含む,TSRタスクの2段階検出モデルの成功のための重要な設計側面を特定する。
SciTSR, FinTabNet, PubTables1Mデータセット上の構造のみのTEDSについて, 単純な手法を適用し, 最先端の性能を実現し, ベースラインのCascade R-CNNモデルを19.32%, 11.56%, 14.77%改善した。
関連論文リスト
- DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。
FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。
限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文 参考訳(メタデータ) (2024-03-27T02:24:00Z) - Learning Unified Reference Representation for Unsupervised Multi-class Anomaly Detection [38.07468257801517]
RLRと呼ばれる新しい特徴再構成に基づく異常検出フレームワークを提案する。
RLRは学習可能な参照表現を使用して、モデルに正常な特徴パターンを明示的に学習するように強制する。
15カテゴリのMVTec-ADデータセットと12カテゴリのVisAデータセットによるRLRの評価は、最先端の手法と比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-18T08:29:47Z) - AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding [29.07617945233152]
データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。
このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。
本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Evaluation and Comparison of Deep Learning Methods for Pavement Crack
Identification with Visual Images [0.0]
ディープラーニングアルゴリズムによる視覚画像による舗装き裂の識別は、検出対象の材料によって制限されないという利点がある。
パッチサンプル分類の面では、細調整されたTLモデルはEDモデルと精度で同等またはわずかに良い。
正確なクラック位置の面では、EDアルゴリズムとGANアルゴリズムの両方がピクセルレベルのセグメンテーションを達成でき、低演算パワープラットフォーム上でリアルタイムに検出されることが期待できる。
論文 参考訳(メタデータ) (2021-12-20T08:23:43Z) - Robust lEarned Shrinkage-Thresholding (REST): Robust unrolling for
sparse recover [87.28082715343896]
我々は、モデルミス特定を前進させるのに堅牢な逆問題を解決するためのディープニューラルネットワークについて検討する。
我々は,アルゴリズムの展開手法を根底にある回復問題のロバストバージョンに適用することにより,新しい堅牢なディープニューラルネットワークアーキテクチャを設計する。
提案したRESTネットワークは,圧縮センシングとレーダイメージングの両問題において,最先端のモデルベースおよびデータ駆動アルゴリズムを上回る性能を示す。
論文 参考訳(メタデータ) (2021-10-20T06:15:45Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。