論文の概要: TableNet A Large-Scale Table Dataset with LLM-Powered Autonomous
- arxiv url: http://arxiv.org/abs/2604.13041v1
- Date: Fri, 27 Feb 2026 02:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.628782
- Title: TableNet A Large-Scale Table Dataset with LLM-Powered Autonomous
- Title(参考訳): LLM駆動自律型大規模テーブルデータセットTableNet
- Authors: Ruilin Zhang, Kai Yang,
- Abstract要約: テーブル構造認識(TSR)は、複雑なテーブルレイアウトを扱うために、大規模言語モデル(LLM)の論理的推論能力を必要とする。
複数のソースから収集・生成される新しいテーブル構造認識データセットであるTableNetデータセットを提案する。
- 参考スコア(独自算出の注目度): 4.207642146162365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table Structure Recognition (TSR) requires the logical reasoning ability of large language models (LLMs) to handle complex table layouts, but current datasets are limited in scale and quality, hindering effective use of this reasoning capacity. We thus present TableNet dataset, a new table structure recognition dataset collected and generated through multiple sources. Central to our approach is the first LLM-powered autonomous table generation and recognition multi-agent system that we developed. The generation part of our system integrates controllable visual, structural, and semantic parameters into the synthesis of table images. It facilitates the creation of a wide array of semantically coherent tables, adaptable to user-defined configurations along with annotations, thereby supporting large-scale and detailed dataset construction. This capability enables a comprehensive and nuanced table image annotation taxonomy, potentially advancing research in table-related domains. In contrast to traditional data collection methods, This approach facilitates the theoretically infinite, domain-agnostic, and style-flexible generation of table images, ensuring both efficiency and precision. The recognition part of our system is a diversity-based active learning paradigm that utilizes tables from multiple sources and selectively samples most informative data to finetune a model, achieving a competitive performance on TableNet test set while reducing training samples by a large margin compared with baselines, and a much higher performance on web-crawled real-world tables compared with models trained on predominant table datasets. To the best of our knowledge, this is the first work which employs active learning into the structure recognition of tables which is diverse in numbers of rows or columns, merged cells, cell contents, etc, which fits better for diversity-based active learning.
- Abstract(参考訳): テーブル構造認識(TSR)は、複雑なテーブルレイアウトを扱うために、大規模言語モデル(LLM)の論理的推論能力を必要とするが、現在のデータセットはスケールと品質に制限されており、この推論能力の効果的な利用を妨げる。
そこで我々は、複数のソースから収集・生成されたテーブル構造認識データセットであるTableNetデータセットを提案する。
我々のアプローチの中心は、私たちが開発した最初のLCMによる自動テーブル生成および認識マルチエージェントシステムである。
本システムの生成部は,テーブル画像の合成に制御可能な視覚的,構造的,意味的パラメータを統合する。
一連のセマンティックコヒーレントなテーブルの作成を容易にし、アノテーションとともにユーザ定義の設定に適応し、大規模かつ詳細なデータセット構築をサポートする。
この能力により、包括的でニュアンスのある表画像アノテーション分類が可能となり、テーブル関連領域の研究が進展する可能性がある。
従来のデータ収集手法とは対照的に、このアプローチは理論上無限大、ドメインに依存しない、およびスタイルに柔軟性のあるテーブルイメージの生成を促進し、効率と精度を両立させる。
本システムの認識部は,複数の情報源からの表を利用した多様性に基づくアクティブラーニングパラダイムであり,最も情報に富んだデータを選択的にサンプリングしてモデルを微調整し,ベースラインと比較してトレーニングサンプルのマージンを大きく減らしながら,TableNetテストセット上での競合性能を実現し,主流のテーブルデータセットで訓練されたモデルと比較して,Webの増大した実世界のテーブル上でのより優れたパフォーマンスを実現している。
我々の知る限りでは、この研究は、様々な行数や列数、融合した細胞、セルの内容など、多様性に基づくアクティブな学習に適合するテーブルの構造認識にアクティブな学習を取り入れた最初の作品である。
関連論文リスト
- TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment [70.83664203825235]
TDATR(Table Detail-Aware Table Recognition)は、テーブルの詳細学習とセルレベルの視覚アライメントにより、エンドツーエンドのTRを改善する。
データセット固有の微調整なしで、7つのベンチマークで最先端または高い競争性能を達成する。
論文 参考訳(メタデータ) (2026-03-24T05:45:02Z) - Language Model Representations for Efficient Few-Shot Tabular Classification [17.63549220100997]
大規模言語モデル(LLM)はセマンティック検索のようなタスクにおいて、Webインフラストラクチャのますます統合的なコンポーネントになりつつある。
本稿では、$textbfTa$ble $textbfR$epresentation with $textbfL$anguage Modelという軽量パラダイムを調査します。
提案手法は,低データ方式の最先端モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2026-01-21T23:28:51Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - TabGLM: Tabular Graph Language Model for Learning Transferable Representations Through Multi-Modal Consistency Minimization [2.1067477213933503]
TabGLM (Tabular Graph Language Model) はテーブルの構造情報と意味情報の両方をモデル化する新しいマルチモーダルアーキテクチャである。
テーブルの各行を完全に連結されたグラフとシリアライズされたテキストに変換し、それぞれグラフニューラルネットワーク(GNN)とテキストエンコーダを使って符号化する。
25のベンチマークデータセットに対する評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2025-02-26T05:32:45Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Synthesizing Realistic Data for Table Recognition [4.500373384879752]
本稿では,テーブル認識に特化して設計されたアノテーションデータを合成する手法を提案する。
中国の金融発表から表の構造と内容を活用することで、我々は最初の広範囲な表アノテーションデータセットを開発した。
我々は、中国の金融発表領域における実世界の複合表の初歩的ベンチマークを確立し、このベンチマークを用いて、我々の合成データに基づいてトレーニングされたモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-04-17T06:36:17Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。