論文の概要: Financial Table Extraction in Image Documents
- arxiv url: http://arxiv.org/abs/2405.05260v1
- Date: Mon, 18 Mar 2024 20:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 10:40:42.728550
- Title: Financial Table Extraction in Image Documents
- Title(参考訳): 画像文書における財務表抽出
- Authors: William Watson, Bo Liu,
- Abstract要約: テーブルの抽出は、金融サービスにおいて長年にわたり広範囲にわたる問題であった。
画像セグメンテーション、OCR、シーケンスモデリングのためのディープラーニングの進歩は、印象的な結果を得るために必要な重み付けを提供する。
- 参考スコア(独自算出の注目度): 2.5573493761119894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table extraction has long been a pervasive problem in financial services. This is more challenging in the image domain, where content is locked behind cumbersome pixel format. Luckily, advances in deep learning for image segmentation, OCR, and sequence modeling provides the necessary heavy lifting to achieve impressive results. This paper presents an end-to-end pipeline for identifying, extracting and transcribing tabular content in image documents, while retaining the original spatial relations with high fidelity.
- Abstract(参考訳): テーブルの抽出は、金融サービスにおいて長年にわたり広範囲にわたる問題であった。
これは、コンテンツが厄介なピクセルフォーマットでロックされているイメージ領域において、より難しい。
幸いなことに、画像セグメンテーション、OCR、シーケンスモデリングのためのディープラーニングの進歩は、印象的な結果を得るために必要な重み付けを提供する。
本稿では,画像文書中の表状コンテンツを特定し,抽出し,翻訳するためのエンドツーエンドパイプラインを提案する。
関連論文リスト
- ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Image-text Retrieval via Preserving Main Semantics of Vision [5.376441473801597]
本稿では,視覚的セマンティック・ロス (VSL) として実装された意味的最適化手法を提案する。
我々は、画像に対応する注釈付きテキストを活用して、画像の主コンテンツを取得する際のモデルを支援する。
2つのベンチマークデータセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-04-20T12:23:29Z) - DocSegTr: An Instance-Level End-to-End Document Image Segmentation
Transformer [16.03084865625318]
ビジネスインテリジェンスプロセスは、しばしばドキュメントから有用なセマンティックコンテンツを抽出する必要がある。
本稿では,文書画像における複雑なレイアウトのエンドツーエンドセグメンテーションのためのトランスフォーマーモデルを提案する。
我々のモデルは、既存の最先端手法に比べて、同等またはより良いセグメンテーション性能を達成した。
論文 参考訳(メタデータ) (2022-01-27T10:50:22Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - End-to-End Information Extraction by Character-Level Embedding and
Multi-Stage Attentional U-Net [0.9137554315375922]
本稿では,文書の2次元キャラクタグリッド埋め込みにおけるエンドツーエンド情報抽出のための新しいディープラーニングアーキテクチャを提案する。
このモデルでは,パラメータを40%減らしながら,ベースラインのU-Netアーキテクチャを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2021-06-02T05:42:51Z) - Deep Structured Feature Networks for Table Detection and Tabular Data
Extraction from Scanned Financial Document Images [0.6299766708197884]
本研究では、財務PDF文書から自動テーブル検出と表データ抽出を提案する。
我々は,より高速なR-CNN(Region-based Convolutional Neural Network)モデルを用いて,テーブル領域を検出する3つの主要なプロセスからなる手法を提案する。
提案したデータセットから,検出モデルの卓越したテーブル検出性能を得た。
論文 参考訳(メタデータ) (2021-02-20T08:21:17Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z) - TableNet: Deep Learning model for end-to-end Table detection and Tabular
data extraction from Scanned Document Images [18.016832803961165]
本稿では,テーブル検出と構造認識のための新しいエンドツーエンドディープラーニングモデルを提案する。
TableNetは、テーブル検出のツインタスクとテーブル構造認識の相互依存性を利用する。
提案手法は, ICDAR 2013 と Marmot Table のデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-01-06T10:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。