論文の概要: Table Detection for Visually Rich Document Images
- arxiv url: http://arxiv.org/abs/2305.19181v2
- Date: Thu, 26 Oct 2023 19:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 17:53:48.567997
- Title: Table Detection for Visually Rich Document Images
- Title(参考訳): ビジュアルリッチな文書画像のテーブル検出
- Authors: Bin Xiao, Murat Simsek, Burak Kantarci, Ala Abu Alkheir
- Abstract要約: テーブル検出(TD)は、視覚的にリッチな文書理解を可能にするための基本的なタスクである。
我々は、IoUを、予測結果の情報損失を測定するために前者を用いる、基礎的真理カバレッジ項と予測カバレッジ項に分離することを提案する。
総合実験の結果,提案手法はIoUによる測定値の異なる最先端手法を一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 17.846536373106268
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Table Detection (TD) is a fundamental task to enable visually rich document
understanding, which requires the model to extract information without
information loss. However, popular Intersection over Union (IoU) based
evaluation metrics and IoU-based loss functions for the detection models cannot
directly represent the degree of information loss for the prediction results.
Therefore, we propose to decouple IoU into a ground truth coverage term and a
prediction coverage term, in which the former can be used to measure the
information loss of the prediction results. Besides, considering the sparse
distribution of tables in document images, we use SparseR-CNN as the base model
and further improve the model by using Gaussian Noise Augmented Image Size
region proposals and many-to-one label assignments. Results under comprehensive
experiments show that the proposed method can consistently outperform
state-of-the-art methods with different IoU-based metrics under various
datasets and demonstrate that the proposed decoupled IoU loss can enable the
model to alleviate information loss.
- Abstract(参考訳): テーブル検出(td)は、視覚的にリッチな文書理解を可能にする基本的なタスクであり、モデルが情報を失うことなく情報を抽出する必要がある。
しかし、一般的なIoU(Intersection over Union)に基づく評価指標と、検出モデルに対するIoUに基づく損失関数は、予測結果に対する情報損失の程度を直接表現することはできない。
そこで,本論文では,IoUを,予測結果の情報損失を測定するために前者を用いるような,基礎的真理カバレッジ項と予測カバレッジ項に分離することを提案する。
また,文書画像中のテーブルのスパース分布を考慮すると,SparseR-CNNをベースモデルとし,ガウス雑音強調画像サイズ領域の提案と多対一のラベル割り当てを用いてモデルを改善する。
包括的実験の結果,提案手法は様々なデータセットの下で異なるIoU基準の計測値を用いて常に最先端の手法より優れており,提案手法は情報損失を軽減できることを示した。
関連論文リスト
- Unifying Invariance and Spuriousity for Graph Out-of-Distribution via
Probability of Necessity and Sufficiency [19.49531172542614]
Invariant Substructure (PNSIS) の抽出に必要かつ十分である確率を利用する統一的な枠組みを提案する。
いくつかのベンチマークでグラフOODの最先端技術よりも優れています。
論文 参考訳(メタデータ) (2024-02-14T13:31:53Z) - SatDM: Synthesizing Realistic Satellite Image with Semantic Layout
Conditioning using Diffusion Models [0.0]
Denoising Diffusion Probabilistic Models (DDPM) は意味的レイアウトから現実的なイメージを合成する上で大きな可能性を証明している。
本稿では,セマンティックマップを用いて高品質で多様な衛星画像を生成する条件付きDDPMモデルを提案する。
提案モデルの有効性は,本研究の文脈内で導入した詳細なラベル付きデータセットを用いて検証する。
論文 参考訳(メタデータ) (2023-09-28T19:39:13Z) - PNI : Industrial Anomaly Detection using Position and Neighborhood
Information [6.316693022958221]
本研究では,条件付き近傍特徴量を用いて正規分布を推定する新しいアルゴリズム textbfPNI を提案する。
我々はMVTec ADベンチマークデータセットの実験を行い、異常検出と局所化におけるtextbf99.56%と textbf98.98%のAUROCスコアを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-11-22T23:45:27Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Calibrating Agent-based Models to Microdata with Graph Neural Networks [1.4911092205861822]
エージェントベースモデル(ABM)をデータにキャリブレーションすることは、モデルがその目的を確実に満たすための最も基本的な要件である。
本稿では、時間グラフニューラルネットワークを用いて、粒状マイクロデータに付随するパラメータ後部を学習する。
論文 参考訳(メタデータ) (2022-06-15T14:41:43Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Incorporating Causal Graphical Prior Knowledge into Predictive Modeling
via Simple Data Augmentation [92.96204497841032]
因果グラフ(CG)は、データ分散の背後にあるデータ生成プロセスの知識のコンパクトな表現である。
本研究では,条件付き独立性(CI)関係の事前知識を活用可能なモデルに依存しないデータ拡張手法を提案する。
本手法は,小データシステムにおける予測精度の向上に有効であることを実験的に示した。
論文 参考訳(メタデータ) (2021-02-27T06:13:59Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Image-based OoD-Detector Principles on Graph-based Input Data in Human
Action Recognition [6.7034293304862755]
画像に基づくOoD(Out-of-Distribution)メソッドがグラフベースデータに適用可能であることを示す。
画像ベースのアプリケーションとは対照的に、より洗練されたネットワークアーキテクチャは、データセット内比較で追い越された。
論文 参考訳(メタデータ) (2020-03-03T15:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。