論文の概要: Multimodal Tabular Reasoning with Privileged Structured Information
- arxiv url: http://arxiv.org/abs/2506.04088v1
- Date: Wed, 04 Jun 2025 15:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.431323
- Title: Multimodal Tabular Reasoning with Privileged Structured Information
- Title(参考訳): 主観的構造化情報を用いたマルチモーダルタブラル推論
- Authors: Jun-Peng Jiang, Yu Xia, Hai-Long Sun, Shiyin Lu, Qing-Guo Chen, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye,
- Abstract要約: ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
- 参考スコア(独自算出の注目度): 67.40011423365712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular reasoning involves multi-step information extraction and logical inference over tabular data. While recent advances have leveraged large language models (LLMs) for reasoning over structured tables, such high-quality textual representations are often unavailable in real-world settings, where tables typically appear as images. In this paper, we tackle the task of tabular reasoning from table images, leveraging privileged structured information available during training to enhance multimodal large language models (MLLMs). The key challenges lie in the complexity of accurately aligning structured information with visual representations, and in effectively transferring structured reasoning skills to MLLMs despite the input modality gap. To address these, we introduce TabUlar Reasoning with Bridged infOrmation ({\sc Turbo}), a new framework for multimodal tabular reasoning with privileged structured tables. {\sc Turbo} benefits from a structure-aware reasoning trace generator based on DeepSeek-R1, contributing to high-quality modality-bridged data. On this basis, {\sc Turbo} repeatedly generates and selects the advantageous reasoning paths, further enhancing the model's tabular reasoning ability. Experimental results demonstrate that, with limited ($9$k) data, {\sc Turbo} achieves state-of-the-art performance ($+7.2\%$ vs. previous SOTA) across multiple datasets.
- Abstract(参考訳): タブラル推論は、多段階の情報抽出と、表データに対する論理的推論を含む。
近年の進歩は、構造化テーブル上の推論に大規模な言語モデル(LLM)を活用しているが、そのような高品質なテキスト表現は、通常、表が画像として現れる現実世界では利用できないことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)の強化のために,学習中に利用可能な特権構造化情報を活用することで,表画像からの表推論の課題に取り組む。
重要な課題は、構造化された情報を視覚的表現と正確に整合させることの複雑さと、入力モダリティのギャップにもかかわらず、構造化された推論スキルをMLLMに効果的に転送することである。
このような問題に対処するため,Bridged InfOrmation ({\sc Turbo}) を用いた TabUlar Reasoning を導入する。
{\sc TurboはDeepSeek-R1に基づく構造対応の推論トレースジェネレータの恩恵を受け、高品質なモダリティブリッジデータに寄与する。
そこで, {\sc Turbo {\displaystyle {\sc Turbo} は, 有利な推論経路を繰り返し生成し, 選択する。
実験結果は、制限された9$kのデータで、複数のデータセットで最先端のパフォーマンス(+7.2\%対以前のSOTA)を達成することを示した。
関連論文リスト
- Enhancing Large Vision-Language Models with Layout Modality for Table Question Answering on Japanese Annual Securities Reports [4.2134954427867]
In-table テキストコンテンツとレイアウト機能を組み込んだ LVLM を用いたテーブル理解手法を提案する。
実験により,これらの補助モーダルは性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-23T08:36:22Z) - NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables [32.9031799179503]
textscNeedleInATable (NIAT)は、各テーブルセルを針として扱い、セルの位置やルックアップ質問に基づいてターゲットセルを抽出するモデルを必要とする。
私たちのデータ、コード、モデルは、将来の研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2025-04-09T03:46:56Z) - Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.841205217768106]
トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。
Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
論文 参考訳(メタデータ) (2024-11-13T11:02:04Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。