論文の概要: Table Detection for Visually Rich Document Images
- arxiv url: http://arxiv.org/abs/2305.19181v1
- Date: Tue, 30 May 2023 16:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:03:49.728180
- Title: Table Detection for Visually Rich Document Images
- Title(参考訳): ビジュアルリッチな文書画像のテーブル検出
- Authors: Bin Xiao, Murat Simsek, Burak Kantarci, Ala Abu Alkheir
- Abstract要約: 表検出(TD)は、視覚的にリッチな文書理解のための基本的な課題である。
IoUに基づく損失関数は、予測結果に対する情報損失の程度を直接反映することはできない。
我々は、IoUを、予測結果の情報損失を測定するために前者を用いる、基礎的真理カバレッジ項と予測カバレッジ項に分離することを提案する。
- 参考スコア(独自算出の注目度): 13.976736586808308
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Table Detection (TD) is a fundamental task towards visually rich document
understanding. Current studies usually formulate the TD problem as an object
detection problem, then leverage Intersection over Union (IoU) based metrics to
evaluate the model performance and IoU-based loss functions to optimize the
model. TD applications usually require the prediction results to cover all the
table contents and avoid information loss. However, IoU and IoU-based loss
functions cannot directly reflect the degree of information loss for the
prediction results. Therefore, we propose to decouple IoU into a ground truth
coverage term and a prediction coverage term, in which the former can be used
to measure the information loss of the prediction results.
Besides, tables in the documents are usually large, sparsely distributed, and
have no overlaps because they are designed to summarize essential information
to make it easy to read and interpret for human readers. Therefore, in this
study, we use SparseR-CNN as the base model, and further improve the model by
using Gaussian Noise Augmented Image Size region proposals and many-to-one
label assignments.
To demonstrate the effectiveness of proposed method and compare with
state-of-the-art methods fairly, we conduct experiments and use IoU-based
evaluation metrics to evaluate the model performance. The experimental results
show that the proposed method can consistently outperform state-of-the-art
methods under different IoU-based metric on a variety of datasets. We conduct
further experiments to show the superiority of the proposed decoupled IoU for
the TD applications by replacing the IoU-based loss functions and evaluation
metrics with proposed decoupled IoU counterparts. The experimental results show
that our proposed decoupled IoU loss can encourage the model to alleviate
information loss.
- Abstract(参考訳): テーブル検出(td)は、視覚的にリッチな文書理解のための基本的なタスクである。
現在の研究では、TD問題をオブジェクト検出問題として定式化し、次にIntersection over Union(IoU)ベースのメトリクスを利用してモデル性能とIoUベースの損失関数を評価し、モデルを最適化する。
TDアプリケーションは、通常、全てのテーブルの内容をカバーするために予測結果を必要とし、情報損失を避ける。
しかし、IoUとIoUに基づく損失関数は、予測結果に対する情報損失の程度を直接反映することはできない。
そこで,本論文では,IoUを,予測結果の情報損失を測定するために前者を用いるような,基礎的真理カバレッジ項と予測カバレッジ項に分離することを提案する。
さらに、文書の表は通常大きく、細かな分散であり、人間の読者にとって読みやすく解釈しやすくするために重要な情報を要約するように設計されているため重複しない。
そこで本研究では,SparseR-CNNをベースモデルとし,ガウス雑音強調画像サイズ領域の提案と多対一のラベル割り当てを用いてモデルを改善する。
提案手法の有効性を実証し,最先端手法と同等に比較するために,実験を行い,IoUに基づく評価指標を用いてモデル性能を評価する。
実験結果から, 提案手法は, 様々なデータセット上で, 異なるIoU基準の下で, 常に最先端の手法より優れることが示された。
IoUに基づく損失関数と評価指標を、提案した非結合IoUと置き換えることで、提案した非結合IoUのTDアプリケーションに対する優位性を示すためのさらなる実験を行う。
実験結果から,提案した分離したIoU損失は,情報損失を軽減できる可能性が示唆された。
関連論文リスト
- Unifying Invariance and Spuriousity for Graph Out-of-Distribution via
Probability of Necessity and Sufficiency [19.49531172542614]
Invariant Substructure (PNSIS) の抽出に必要かつ十分である確率を利用する統一的な枠組みを提案する。
いくつかのベンチマークでグラフOODの最先端技術よりも優れています。
論文 参考訳(メタデータ) (2024-02-14T13:31:53Z) - SatDM: Synthesizing Realistic Satellite Image with Semantic Layout
Conditioning using Diffusion Models [0.0]
Denoising Diffusion Probabilistic Models (DDPM) は意味的レイアウトから現実的なイメージを合成する上で大きな可能性を証明している。
本稿では,セマンティックマップを用いて高品質で多様な衛星画像を生成する条件付きDDPMモデルを提案する。
提案モデルの有効性は,本研究の文脈内で導入した詳細なラベル付きデータセットを用いて検証する。
論文 参考訳(メタデータ) (2023-09-28T19:39:13Z) - PNI : Industrial Anomaly Detection using Position and Neighborhood
Information [6.316693022958221]
本研究では,条件付き近傍特徴量を用いて正規分布を推定する新しいアルゴリズム textbfPNI を提案する。
我々はMVTec ADベンチマークデータセットの実験を行い、異常検出と局所化におけるtextbf99.56%と textbf98.98%のAUROCスコアを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-11-22T23:45:27Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Calibrating Agent-based Models to Microdata with Graph Neural Networks [1.4911092205861822]
エージェントベースモデル(ABM)をデータにキャリブレーションすることは、モデルがその目的を確実に満たすための最も基本的な要件である。
本稿では、時間グラフニューラルネットワークを用いて、粒状マイクロデータに付随するパラメータ後部を学習する。
論文 参考訳(メタデータ) (2022-06-15T14:41:43Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Incorporating Causal Graphical Prior Knowledge into Predictive Modeling
via Simple Data Augmentation [92.96204497841032]
因果グラフ(CG)は、データ分散の背後にあるデータ生成プロセスの知識のコンパクトな表現である。
本研究では,条件付き独立性(CI)関係の事前知識を活用可能なモデルに依存しないデータ拡張手法を提案する。
本手法は,小データシステムにおける予測精度の向上に有効であることを実験的に示した。
論文 参考訳(メタデータ) (2021-02-27T06:13:59Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Image-based OoD-Detector Principles on Graph-based Input Data in Human
Action Recognition [6.7034293304862755]
画像に基づくOoD(Out-of-Distribution)メソッドがグラフベースデータに適用可能であることを示す。
画像ベースのアプリケーションとは対照的に、より洗練されたネットワークアーキテクチャは、データセット内比較で追い越された。
論文 参考訳(メタデータ) (2020-03-03T15:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。