論文の概要: TABLET: A Large-Scale Dataset for Robust Visual Table Understanding
- arxiv url: http://arxiv.org/abs/2509.21205v1
- Date: Thu, 25 Sep 2025 14:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.97005
- Title: TABLET: A Large-Scale Dataset for Robust Visual Table Understanding
- Title(参考訳): TABLET:ロバストなビジュアルテーブル理解のための大規模データセット
- Authors: Iñigo Alonso, Imanol Miranda, Eneko Agirre, Mirella Lapata,
- Abstract要約: 既存のビジュアルテーブル理解(VTU)データセットは、単一の視覚化と事前定義された命令を備えた固定例を提供する。
20タスクにわたる400万のサンプルを備えた大規模なVTUデータセットであるTABLETを紹介した。
- 参考スコア(独自算出の注目度): 46.96642907587549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While table understanding increasingly relies on pixel-only settings where tables are processed as visual representations, current benchmarks predominantly use synthetic renderings that lack the complexity and visual diversity of real-world tables. Additionally, existing visual table understanding (VTU) datasets offer fixed examples with single visualizations and pre-defined instructions, providing no access to underlying serialized data for reformulation. We introduce TABLET, a large-scale VTU dataset with 4 million examples across 20 tasks, grounded in 2 million unique tables where 88% preserve original visualizations. Each example includes paired image-HTML representations, comprehensive metadata, and provenance information linking back to the source datasets. Fine-tuning vision-language models like Qwen2.5-VL-7B on TABLET improves performance on seen and unseen VTU tasks while increasing robustness on real-world table visualizations. By preserving original visualizations and maintaining example traceability in a unified large-scale collection, TABLET establishes a foundation for robust training and extensible evaluation of future VTU models.
- Abstract(参考訳): テーブルの理解は、テーブルを視覚的な表現として処理するピクセルのみの設定にますます依存しているが、現在のベンチマークは主に、現実世界のテーブルの複雑さと視覚的多様性に欠ける合成レンダリングを使用している。
さらに、既存のビジュアルテーブル理解(VTU)データセットは、単一の視覚化と事前定義された命令を備えた固定例を提供し、修正のための基礎となるシリアライズされたデータへのアクセスを提供しない。
20タスクにわたる400万のサンプルを備えた大規模なVTUデータセットであるTABLETを紹介した。
それぞれの例には、ペア化されたイメージ-HTML表現、包括的なメタデータ、ソースデータセットにリンクする証明情報が含まれている。
TABLETのQwen2.5-VL-7Bのような微調整型ヴィジュアル言語モデルは、実世界のテーブル視覚化の堅牢性を高めながら、見かけや見えないVTUタスクのパフォーマンスを改善している。
TABLETは、オリジナルの視覚化を保存し、大規模なコレクションでサンプルトレーサビリティを維持することにより、将来のVTUモデルの堅牢なトレーニングと拡張可能な評価の基礎を確立する。
関連論文リスト
- TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images [0.42970700836450476]
Visual-TableQAは、複雑なデータに対する視覚的推論を評価し、拡張するために設計された、大規模でオープンなドメインデータセットである。
Visual-TableQAは2.5kのリッチな構造化されたテーブルと6kの推論集約型QAペアで構成され、いずれもUSD 100以下のコストで生産される。
論文 参考訳(メタデータ) (2025-09-09T17:52:26Z) - TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。