論文の概要: Decoupling Skeleton and Flesh: Efficient Multimodal Table Reasoning with Disentangled Alignment and Structure-aware Guidance
- arxiv url: http://arxiv.org/abs/2602.03491v1
- Date: Tue, 03 Feb 2026 13:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.459248
- Title: Decoupling Skeleton and Flesh: Efficient Multimodal Table Reasoning with Disentangled Alignment and Structure-aware Guidance
- Title(参考訳): 骨格とフレッシュの疎結合:非交叉アライメントと構造認識誘導による効率的なマルチモーダルテーブル推論
- Authors: Yingjie Zhu, Xuefeng Bai, Kehai Chen, Yang Xiang, Youcheng Pan, Xiaoqiang Zhou, Min Zhang,
- Abstract要約: 複雑なレイアウトと密結合構造情報により、LVLM(Large Vision-Language Models)ではテーブルイメージ上の推論が依然として困難である。
既存のソリューションは、しばしば高価な教師付きトレーニング、強化学習、あるいは外部ツールに依存し、効率とスケーラビリティを制限します。
最小限のアノテーションと外部ツールなしでテーブル推論にLVLMを適用するにはどうすればよいのか?
- 参考スコア(独自算出の注目度): 43.49944599088126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning over table images remains challenging for Large Vision-Language Models (LVLMs) due to complex layouts and tightly coupled structure-content information. Existing solutions often depend on expensive supervised training, reinforcement learning, or external tools, limiting efficiency and scalability. This work addresses a key question: how to adapt LVLMs to table reasoning with minimal annotation and no external tools? Specifically, we first introduce DiSCo, a Disentangled Structure-Content alignment framework that explicitly separates structural abstraction from semantic grounding during multimodal alignment, efficiently adapting LVLMs to tables structures. Building on DiSCo, we further present Table-GLS, a Global-to-Local Structure-guided reasoning framework that performs table reasoning via structured exploration and evidence-grounded inference. Extensive experiments across diverse benchmarks demonstrate that our framework efficiently enhances LVLM's table understanding and reasoning capabilities, particularly generalizing to unseen table structures.
- Abstract(参考訳): 複雑なレイアウトと密結合構造情報により、LVLM(Large Vision-Language Models)ではテーブルイメージ上の推論が依然として困難である。
既存のソリューションは、しばしば高価な教師付きトレーニング、強化学習、あるいは外部ツールに依存し、効率とスケーラビリティを制限します。
最小限のアノテーションと外部ツールなしでテーブル推論にLVLMを適用するにはどうすればよいのか?
具体的には,マルチモーダルアライメント中のセマンティックグラウンドリングから構造抽象を明示的に分離し,LVLMをテーブル構造に効率的に適応するディスタングル型構造コンテンツアライメントフレームワークであるDiSCoを紹介する。
DiSCo上に構築されたTable-GLSは,構造化探索とエビデンス基底推論によるテーブル推論を行うグローバル・ローカル構造誘導推論フレームワークである。
様々なベンチマークによる大規模な実験により、我々のフレームワークはLVLMのテーブル理解と推論能力、特に目に見えないテーブル構造への一般化を効果的に向上することを示した。
関連論文リスト
- Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - Enhancing Large Vision-Language Models with Layout Modality for Table Question Answering on Japanese Annual Securities Reports [4.2134954427867]
In-table テキストコンテンツとレイアウト機能を組み込んだ LVLM を用いたテーブル理解手法を提案する。
実験により,これらの補助モーダルは性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-23T08:36:22Z) - Theme-Explanation Structure for Table Summarization using Large Language Models: A Case Study on Korean Tabular Data [1.0621665950143144]
現在の表要約法は、人間に優しい出力の重要な側面を無視することが多い。
本稿では,Theme-Explanation Structure-based Table Summarization (Tabular-TX) パイプラインを紹介する。
論文 参考訳(メタデータ) (2025-01-17T08:42:49Z) - Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.841205217768106]
トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。
Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
論文 参考訳(メタデータ) (2024-11-13T11:02:04Z) - Structure Guided Prompt: Instructing Large Language Model in Multi-Step
Reasoning by Exploring Graph Structure of the Text [44.81698187939784]
本稿では,大規模言語モデル(LLM)の多段階推論能力向上を目的としたフレームワークであるStructure Guided Promptを紹介する。
実験の結果,このフレームワークはLLMの推論能力を大幅に向上し,より広い範囲の自然言語シナリオを拡張できることがわかった。
論文 参考訳(メタデータ) (2024-02-20T22:56:23Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure [66.33623392497599]
テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。
モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-09T06:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。