Fugu-MT 論文翻訳(概要): A Conglomerate of Multiple OCR Table Detection and Extraction

論文の概要: A Conglomerate of Multiple OCR Table Detection and Extraction

arxiv url: http://arxiv.org/abs/2010.08591v1
Date: Fri, 16 Oct 2020 18:56:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 21:40:10.049415
Title: A Conglomerate of Multiple OCR Table Detection and Extraction
Title（参考訳）: 複数のOCRテーブルの検出と抽出のコングロマリット
Authors: Smita Pallavi, Raj Ratn Pranesh, Sumit Kumar
Abstract要約: 本稿では,OCR文書から複数のテーブルを検出し,抽出するアルゴリズムを提案する。このアルゴリズムは、画像処理技術、テキスト認識、手続き的符号化を組み合わせて、同一画像内の異なるテーブルを識別する。
参考スコア（独自算出の注目度）: 3.305163072670317
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Information representation as tables are compact and concise method that eases searching, indexing, and storage requirements. Extracting and cloning tables from parsable documents is easier and widely used, however industry still faces challenge in detecting and extracting tables from OCR documents or images. This paper proposes an algorithm that detects and extracts multiple tables from OCR document. The algorithm uses a combination of image processing techniques, text recognition and procedural coding to identify distinct tables in same image and map the text to appropriate corresponding cell in dataframe which can be stored as Comma-separated values, Database, Excel and multiple other usable formats.
Abstract（参考訳）: テーブルとしての情報表現はコンパクトで簡潔な方法であり、検索、インデックス化、ストレージ要件が容易である。 parsableドキュメントからのテーブルの抽出とクローニングは簡単で広く利用されているが、ocrドキュメントやイメージからテーブルの検出と抽出にはまだ課題がある。本稿では,OCR文書から複数のテーブルを検出し抽出するアルゴリズムを提案する。このアルゴリズムは、画像処理技術とテキスト認識と手続き符号化の組み合わせを使用して、同一画像内の異なるテーブルを特定し、コンマ分離値、データベース、excel、その他の利用可能な複数のフォーマットとして格納可能なデータフレーム内の適切な対応するセルにテキストをマップする。

関連論文リスト

MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。 MoDora は半構造化文書解析のための LLM を利用したシステムである。実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-26T14:48:49Z)
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。 2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文参考訳（メタデータ） (2025-11-13T15:12:17Z)
Tailoring Table Retrieval from a Field-aware Hybrid Matching Perspective [70.13748256886288]
表検索はテキスト検索に比べて少ない。異なるテーブルフィールドは、異なるマッチングの好みを持つ。テーブル調整ハイブリドマッチングrEtriever(THYME)について紹介する。
論文参考訳（メタデータ） (2025-03-04T03:57:10Z)
Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文参考訳（メタデータ） (2024-06-17T06:27:35Z)
Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文参考訳（メタデータ） (2024-06-09T15:00:28Z)
TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content [39.34067105360439]
本稿では,DeTR,CascadeTabNet,PP OCR v2といったディープラーニングモデルを統合し,総合的な画像ベースのテーブル認識を実現するエンドツーエンドパイプラインを提案する。本システムでは,同時テーブル検出(TD),テーブル構造認識(TSR),テーブル内容認識(TCR)を実現している。提案手法は0.96のIOUと78%のOCR精度を実現し,従来のテーブルトランスフォーマーに比べてOCR精度が約25%向上したことを示す。
論文参考訳（メタデータ） (2024-04-16T06:24:53Z)
SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。 SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文参考訳（メタデータ） (2023-03-08T05:15:01Z)
Probabilistic Compositional Embeddings for Multimodal Image Retrieval [48.450232527041436]
画像検索において複数のマルチモーダルクエリを構成する上で,より困難なシナリオについて検討する。任意の数のクエリイメージと(あるいは)テキストが与えられた場合、我々のゴールは、複数のマルチモーダルクエリで指定されたセマンティックな概念を含むターゲットイメージを検索することである。様々なクエリのセマンティクスを柔軟にエンコードできる情報埋め込みを学習するための,新しい多モード確率的合成法(MPC)を提案する。
論文参考訳（メタデータ） (2022-04-12T14:45:37Z)
TSR-DSAW: Table Structure Recognition via Deep Spatial Association of Words [20.59970119209079]
そこで本稿では,表構造を乱すために,表画像に存在する異なる単語対間の空間的関連を捉えるために,深層ネットワークを訓練することを提案する。 TSR-DSAW: TSR through Deep Spatial Association of Words, which outputs a digital representation of a table image in a structured format as HTML。
論文参考訳（メタデータ） (2022-03-14T06:02:28Z)
Multi-Type-TD-TSR -- Extracting Tables from Document Images using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文参考訳（メタデータ） (2021-05-23T21:17:18Z)
Compact Deep Aggregation for Set Retrieval [87.52470995031997]
画像の大規模データセットから複数の顔を含む画像を取得することに焦点を当てる。ここでは、セットは各画像の顔記述子で構成され、複数のIDに対するクエリが与えられた後、すべてのIDを含む画像を取得することが目標である。このコンパクトディスクリプタは,画像毎に最大2面まで識別性の低下が最小限に抑えられ,その後徐々に劣化することを示す。
論文参考訳（メタデータ） (2020-03-26T08:43:15Z)
Table Structure Extraction with Bi-directional Gated Recurrent Unit Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文参考訳（メタデータ） (2020-01-08T13:17:44Z)
TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images [18.016832803961165]
本稿では,テーブル検出と構造認識のための新しいエンドツーエンドディープラーニングモデルを提案する。 TableNetは、テーブル検出のツインタスクとテーブル構造認識の相互依存性を利用する。提案手法は, ICDAR 2013 と Marmot Table のデータセットを用いて評価した。
論文参考訳（メタデータ） (2020-01-06T10:25:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。