論文の概要: DenTab: A Dataset for Table Recognition and Visual QA on Real-World Dental Estimates
- arxiv url: http://arxiv.org/abs/2604.16099v1
- Date: Fri, 17 Apr 2026 14:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.952417
- Title: DenTab: A Dataset for Table Recognition and Visual QA on Real-World Dental Estimates
- Title(参考訳): DenTab: テーブル認識とビジュアルQAのための実世界歯科用推定データ
- Authors: Laziz Hamdi, Amine Tamasna, Thierry Paquet,
- Abstract要約: DenTabは、高品質なHTMLアノテーションを備えた歯科用推定値から2000個のトリミングされたテーブルイメージのデータセットである。
我々は、14の視覚言語エグゼキュータモデル(VLM)と2つのOCRベースラインを含む16のシステムをベンチマークした。
本稿では,算術的質問を決定論的実行にルーティングするテーブルルータパイプラインを提案する。
- 参考スコア(独自算出の注目度): 2.7885016877286897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tables condense key transactional and administrative information into compact layouts, but practical extraction requires more than text recognition: systems must also recover structure (rows, columns, merged cells, headers) and interpret roles such as line items, subtotals, and totals under common capture artifacts. Many existing resources for table structure recognition and TableVQA are built from clean digital-born sources or rendered tables, and therefore only partially reflect noisy administrative conditions. We introduce DenTab, a dataset of 2{,}000 cropped table images from dental estimates with high-quality HTML annotations, enabling evaluation of table recognition (TR) and table visual question answering (TableVQA) on the same inputs. DenTab includes 2{,}208 questions across eleven categories spanning retrieval, aggregation, and logic/consistency checks. We benchmark 16 systems, including 14 vision--language models (VLMs) and two OCR baselines. Across models, strong structure recovery does not consistently translate into reliable performance on multi-step arithmetic and consistency questions, and these reasoning failures persist even when using ground-truth HTML table inputs. To improve arithmetic reliability without training, we propose the Table Router Pipeline, which routes arithmetic questions to deterministic execution. The pipeline combines (i) a VLM that produces a baseline answer, a structured table representation, and a constrained table program with (ii) a rule-based executor that performs exact computation over the parsed table. The source code and dataset will be made publicly available at https://github.com/hamdilaziz/DenTab.
- Abstract(参考訳): テーブルはキートランザクショナルおよび管理情報をコンパクトなレイアウトに集約するが、実際の抽出にはテキスト認識以上のものが必要であり、システムは構造(行、列、マージセル、ヘッダー)を復元し、ラインアイテム、サブトゥータル、トータルといった役割を共通のキャプチャーアーティファクトの下で解釈する必要がある。
テーブル構造認識やテーブルVQAのための既存のリソースの多くは、クリーンなデジタル生まれのソースやレンダリングされたテーブルから構築されているため、ノイズの多い管理条件を部分的に反映しているだけである。
高品質なHTMLアノテーションを用いた2{,}000個のトリミングテーブル画像のデータセットであるDenTabを導入し、同じ入力に対してテーブル認識(TR)とテーブル視覚質問応答(TableVQA)の評価を可能にする。
DenTabには、検索、集約、ロジック/一貫性チェックにまたがる11のカテゴリにわたる2{,}208の質問が含まれている。
我々は、14の視覚言語モデル(VLM)と2つのOCRベースラインを含む16のシステムをベンチマークした。
モデル全体では、強い構造回復は、マルチステップの算術と整合性の問題における信頼性の高い性能に一貫して変換されない。
学習せずに算術的信頼性を向上させるために,算術的質問を決定論的実行にルーティングするテーブルルータパイプラインを提案する。
パイプラインが結合します
(i)ベースライン回答、構造化テーブル表現及び制約テーブルプログラムを生成するVLM
(ii) 解析テーブル上で正確な計算を行うルールベースの実行器。
ソースコードとデータセットはhttps://github.com/hamdilaziz/DenTab.comで公開されている。
関連論文リスト
- ST-Raptor: An Agentic System for Semi-Structured Table QA [16.18235560779917]
半構造化テーブル質問応答(QA)のためのエージェントシステムST-Raptorを提案する。
ST-Raptorは、ビジュアル編集、ツリーベースの構造モデリング、エージェント駆動クエリ解決を組み合わせたインタラクティブな分析環境を提供し、正確でユーザフレンドリなテーブル理解をサポートする。
論文 参考訳(メタデータ) (2026-02-03T09:06:21Z) - RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking [63.253294691180635]
現実世界のシナリオでは、純粋なテキスト以外では、かなりの量の知識がテーブルに格納される。
まず、階層型メモリインデックス、多段階検索、グラフ認識プロンプトからなるテーブルコーパス対応RAGフレームワークT-RAGを提案する。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains [4.828743805126944]
本稿では、テーブルVQA-Benchと呼ばれるテーブル視覚質問応答のベンチマークを確立する。
既存のデータセットには、TableVQAの重要な2つのコンポーネントであるイメージやQAペアが組み込まれていない点に注意が必要だ。
論文 参考訳(メタデータ) (2024-04-30T02:05:18Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - ReasTAP: Injecting Table Reasoning Skills During Pre-training via
Synthetic Reasoning Examples [15.212332890570869]
複雑なテーブル固有のアーキテクチャ設計を必要とせずに、事前学習中に高レベルのテーブル推論スキルをモデルに注入できることを示すためにReasTAPを開発した。
ReasTAPはすべてのベンチマークで最新のパフォーマンスを実現し、低リソース設定で大幅に改善されている。
論文 参考訳(メタデータ) (2022-10-22T07:04:02Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - HiTab: A Hierarchical Table Dataset for Question Answering and Natural
Language Generation [35.73434495391091]
階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。
この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。
論文 参考訳(メタデータ) (2021-08-15T10:14:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。