論文の概要: TableMoE: Neuro-Symbolic Routing for Structured Expert Reasoning in Multimodal Table Understanding
- arxiv url: http://arxiv.org/abs/2506.21393v1
- Date: Thu, 26 Jun 2025 15:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.169253
- Title: TableMoE: Neuro-Symbolic Routing for Structured Expert Reasoning in Multimodal Table Understanding
- Title(参考訳): TableMoE:マルチモーダルテーブル理解における構造化エキスパート推論のためのニューロシンボリックルーティング
- Authors: Junwen Zhang, Pu Chen, Yin Zhang,
- Abstract要約: TableMoEは、マルチモーダルテーブルデータに対する堅牢で構造化された推論のために特別に設計された、ニューロシンボリックなMixture-of-Connector-Experts (MoCE)アーキテクチャである。
TableMoEは革新的なNeuro-Symbolic Routing機構を備えており、潜在意味トークンの役割を予測し、テーブル要素を専門の専門家に動的にルーティングする。
評価のために、実世界のマルチモーダル劣化と構造的複雑さの下でのストレステストモデルに特化して設計された、挑戦的なWildStructベンチマーク4つをキュレートし、リリースする。
- 参考スコア(独自算出の注目度): 3.404552731440374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal understanding of tables in real-world contexts is challenging due to the complexity of structure, symbolic density, and visual degradation (blur, skew, watermarking, incomplete structures or fonts, multi-span or hierarchically nested layouts). Existing multimodal large language models (MLLMs) struggle with such WildStruct conditions, resulting in limited performance and poor generalization. To address these challenges, we propose TableMoE, a neuro-symbolic Mixture-of-Connector-Experts (MoCE) architecture specifically designed for robust, structured reasoning over multimodal table data. TableMoE features an innovative Neuro-Symbolic Routing mechanism, which predicts latent semantic token roles (e.g., header, data cell, axis, formula) and dynamically routes table elements to specialized experts (Table-to-HTML, Table-to-JSON, Table-to-Code) using a confidence-aware gating strategy informed by symbolic reasoning graphs. To facilitate effective alignment-driven pretraining, we introduce the large-scale TableMoE-Align dataset, consisting of 1.2M table-HTML-JSON-code quadruples across finance, science, biomedicine and industry, utilized exclusively for model pretraining. For evaluation, we curate and release four challenging WildStruct benchmarks: WMMFinQA, WMMTatQA, WMMTabDialog, and WMMFinanceMath, designed specifically to stress-test models under real-world multimodal degradation and structural complexity. Experimental results demonstrate that TableMoE significantly surpasses existing state-of-the-art models. Extensive ablation studies validate each core component, emphasizing the critical role of Neuro-Symbolic Routing and structured expert alignment. Through qualitative analyses, we further showcase TableMoE's interpretability and enhanced robustness, underscoring the effectiveness of integrating neuro-symbolic reasoning for multimodal table understanding.
- Abstract(参考訳): 実世界のコンテキストにおけるテーブルのマルチモーダル理解は、構造、記号密度、視覚的劣化(ブルー、スキュー、ウォーターマーキング、不完全な構造またはフォント、マルチスパンまたは階層的なネストレイアウト)の複雑さのために困難である。
既存のマルチモーダル大言語モデル(MLLM)はそのようなWildStruct条件に苦しむため、性能は制限され、一般化は不十分である。
これらの課題に対処するため,我々はマルチモーダルテーブルデータに対する堅牢で構造化された推論のために特別に設計された,ニューロシンボリックなMixture-of-Connector-Experts (MoCE)アーキテクチャであるTableMoEを提案する。
TableMoEは革新的なNeuro-Symbolic Routingメカニズムを備えており、遅延セマンティックトークンの役割(ヘッダー、データセル、軸、式)を予測し、シンボリック推論グラフによって通知される信頼を意識したゲーティング戦略を使用してテーブル要素を専門の専門家(Table-to-HTML、Table-to-JSON、Table-to-Code)に動的にルーティングする。
効果的なアライメント駆動型事前トレーニングを容易にするため、モデル事前トレーニングにのみ使用される、財務、科学、バイオメディシン、産業にまたがる1.2Mのテーブル-HTML-JSON-コードの四倍数からなる大規模TableMoE-Alignデータセットを導入した。
WMMFinQA, WMMTatQA, WMMTabDialog, WMMFinanceMathの4つのWildStructベンチマークを評価・リリースする。
実験の結果、TableMoEは既存の最先端モデルを大きく上回っていることがわかった。
広範囲にわたるアブレーション研究は、それぞれのコアコンポーネントを検証し、ニューロシンボリックルーティングと構造化専門家アライメントの重要な役割を強調した。
定性的な分析を通じて、TableMoEの解釈可能性と強靭性をさらに向上させ、マルチモーダルテーブル理解のためのニューロシンボリック推論の統合の有効性を実証した。
関連論文リスト
- Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - Enhancing Large Vision-Language Models with Layout Modality for Table Question Answering on Japanese Annual Securities Reports [4.2134954427867]
In-table テキストコンテンツとレイアウト機能を組み込んだ LVLM を用いたテーブル理解手法を提案する。
実験により,これらの補助モーダルは性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-23T08:36:22Z) - Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.841205217768106]
トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。
Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
論文 参考訳(メタデータ) (2024-11-13T11:02:04Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Benchmarking Diverse-Modal Entity Linking with Generative Models [78.93737257356784]
既存の EL データセットから様々なモード EL (DMEL) のベンチマークを構築した。
DMEL タスクにアプローチするため,マルチモーダルエンコーダ・デコーダのパラダイムに則って生成多モードモデル (GDMM) を提案する。
GDMMは、より強力なDMELベースラインを構築し、平均8.51F1スコアで最先端のタスク固有のELモデルを上回っている。
論文 参考訳(メタデータ) (2023-05-27T02:38:46Z) - Neural Collaborative Graph Machines for Table Structure Recognition [18.759018425097747]
本稿では,階層化された協調ブロックを備えたニューラルコラボレーティブグラフマシン(NCGM)を提案する。
提案したNCGMは、モダリティ内キューの文脈で条件付けられた異なるモダリティの協調パターンを変調可能であることを示す。
論文 参考訳(メタデータ) (2021-11-26T08:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。