論文の概要: InstructTable: Improving Table Structure Recognition Through Instructions
- arxiv url: http://arxiv.org/abs/2604.02880v1
- Date: Fri, 03 Apr 2026 08:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.4113
- Title: InstructTable: Improving Table Structure Recognition Through Instructions
- Title(参考訳): インストラクタブル:インストラクタによるテーブル構造認識の改善
- Authors: Boming Chen, Zining Wang, Zhentao Guo, Jianqiang Liu, Chen Duan, Yu Gu, Kai zhou, Pengfei Yan,
- Abstract要約: テーブル構造認識(TSR)は、広く実用化されている。
伝統的な視覚中心モデルは、重要なセマンティックサポートを欠いているが、視覚情報のみに依存している。
ビジョン誘導テーブル命令はこれらの制限に対処する。
- 参考スコア(独自算出の注目度): 18.36576098544595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table structure recognition (TSR) holds widespread practical importance by parsing tabular images into structured representations, yet encounters significant challenges when processing complex layouts involving merged or empty cells. Traditional visual-centric models rely exclusively on visual information while lacking crucial semantic support, thereby impeding accurate structural recognition in complex scenarios. Vision-language models leverage contextual semantics to enhance comprehension; however, these approaches underemphasize the modeling of visual structural information. To address these limitations, this paper introduces InstructTable, an instruction-guided multi-stage training TSR framework. Meticulously designed table instruction pre-training directs attention toward fine-grained structural patterns, enhancing comprehension of complex tables. Complementary TSR fine-tuning preserves robust visual information modeling, maintaining high-precision table parsing across diverse scenarios. Furthermore, we introduce Table Mix Expand (TME), an innovative template-free method for synthesizing large-scale authentic tabular data. Leveraging TME, we construct the Balanced Complex Dense Synthetic Tables (BCDSTab) benchmark, comprising 900 complex table images synthesized through our method to serve as a rigorous benchmark. Extensive experiments on multiple public datasets (FinTabNet, PubTabNet, MUSTARD) and BCDSTab demonstrate that InstructTable achieves state-of-the-art performance in TSR tasks. Ablation studies further confirm the positive impact of the proposed tabular-data-specific instructions and synthetic data.
- Abstract(参考訳): 表構造認識(TSR)は、表状の画像を構造化された表現に解析することで、幅広い実践的重要性を保っているが、統合されたセルや空のセルを含む複雑なレイアウトを処理する場合、大きな課題に直面する。
従来の視覚中心モデルは視覚情報にのみ依存するが、重要なセマンティックサポートは欠如しており、複雑なシナリオにおける正確な構造認識を妨げる。
視覚言語モデルは文脈意味論を利用して理解を深めるが、これらのアプローチは視覚構造情報のモデリングに重点を置いている。
これらの制約に対処するため,命令誘導型マルチステージトレーニングTSRフレームワークであるInstructTableを紹介した。
微妙に設計されたテーブル命令の事前学習は、複雑なテーブルの理解を深め、きめ細かい構造パターンに注意を向ける。
補完的なTSR微調整は堅牢な視覚情報モデリングを保持し、様々なシナリオにまたがる高精度なテーブル解析を維持する。
さらに,Table Mix Expand (TME)を導入し,大規模な認証表データを合成する革新的なテンプレートフリー手法を提案する。
TMEを活用することで、我々は、厳密なベンチマークとして機能するために、我々の方法で合成された900の複雑なテーブル画像からなる、Ba balanced Complex Dense Synthetic Tables (BCDSTab)ベンチマークを構築した。
複数の公開データセット(FinTabNet、PubTabNet、MUSTARD)とBCDSTabに関する大規模な実験は、InstructTableがTSRタスクで最先端のパフォーマンスを達成することを実証している。
アブレーション研究は、提案した表型データ固有の命令と合成データによる肯定的な影響をさらに確認する。
関連論文リスト
- TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment [70.83664203825235]
TDATR(Table Detail-Aware Table Recognition)は、テーブルの詳細学習とセルレベルの視覚アライメントにより、エンドツーエンドのTRを改善する。
データセット固有の微調整なしで、7つのベンチマークで最先端または高い競争性能を達成する。
論文 参考訳(メタデータ) (2026-03-24T05:45:02Z) - Decoupling Skeleton and Flesh: Efficient Multimodal Table Reasoning with Disentangled Alignment and Structure-aware Guidance [43.49944599088126]
複雑なレイアウトと密結合構造情報により、LVLM(Large Vision-Language Models)ではテーブルイメージ上の推論が依然として困難である。
既存のソリューションは、しばしば高価な教師付きトレーニング、強化学習、あるいは外部ツールに依存し、効率とスケーラビリティを制限します。
最小限のアノテーションと外部ツールなしでテーブル推論にLVLMを適用するにはどうすればよいのか?
論文 参考訳(メタデータ) (2026-02-03T13:08:31Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - Theme-Explanation Structure for Table Summarization using Large Language Models: A Case Study on Korean Tabular Data [1.0621665950143144]
現在の表要約法は、人間に優しい出力の重要な側面を無視することが多い。
本稿では,Theme-Explanation Structure-based Table Summarization (Tabular-TX) パイプラインを紹介する。
論文 参考訳(メタデータ) (2025-01-17T08:42:49Z) - UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。