論文の概要: Thinking with Tables: Enhancing Multi-Modal Tabular Understanding via Neuro-Symbolic Reasoning
- arxiv url: http://arxiv.org/abs/2603.24004v1
- Date: Wed, 25 Mar 2026 07:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.17487
- Title: Thinking with Tables: Enhancing Multi-Modal Tabular Understanding via Neuro-Symbolic Reasoning
- Title(参考訳): テーブルによる思考:ニューロシンボリック推論による多言語話者理解の強化
- Authors: Kun-Yang Yu, Zhi Zhou, Shi-Yu Tian, Xiao-Wen Yang, Zi-Yi Jia, Ming Yang, Zi-Jian Cheng, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: タブラルビジョン・マルチモーダル理解(TVMU)の課題に焦点をあてる。
これらの問題に対処するため、我々はThinking with Tables (TWT)を提案する。
TWTはプログラム支援コードに基づくニューロシンボリック推論機構を採用し、キー操作を容易にする。
- 参考スコア(独自算出の注目度): 25.51611795000963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable reasoning capabilities across modalities such as images and text. However, tabular data, despite being a critical real-world modality, remains relatively underexplored in multimodal learning. In this paper, we focus on the task of Tabular-Vision Multi-Modal Understanding (TVMU) and identify three core challenges: (1) high structural variability and data incompleteness in tables, (2) implicit and complex feature dependencies, and (3) significant heterogeneity in problem-solving pipelines across downstream tasks. To address these issues, we propose Thinking with Tables (TWT). TWT employs a program-aided code-based neuro-symbolic reasoning mechanism that facilitates key operations, such as information extraction and element modeling, by interacting with external environments. We evaluate TWT on eight representative datasets. Experimental results demonstrate that TWT consistently outperforms existing baselines by an average of 10\% in accuracy, achieving performance comparable to, or even surpassing, proprietary commercial SOTA LLMs on TVMU tasks. Models and codes are available at https://github.com/kunyang-YU/Thinking-with-Tables
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像やテキストなどのモダリティにまたがる顕著な推論能力を示す。
しかし、表形式のデータは、実世界の重要なモダリティであるにもかかわらず、マルチモーダル学習において比較的過小評価されている。
本稿では,タブラル・ビジョン・マルチモーダル理解(TVMU)の課題に着目し,(1)表の構造的多様性とデータ不完全性,(2)暗黙的かつ複雑な特徴依存性,(3)下流タスク間の問題解決パイプラインにおける顕著な異質性,の3つの課題を特定する。
これらの問題に対処するため、我々はThinking with Tables (TWT)を提案する。
TWTは、外部環境と対話することで、情報抽出や要素モデリングといった重要な操作を容易にするプログラム支援コードに基づく神経象徴的推論機構を採用している。
TWTを8つの代表的なデータセットで評価する。
実験の結果,TVMUタスクにおいて,TWTは既存のベースラインを平均10倍の精度で上回り,プロプライエタリなSOTA LLMに匹敵する性能を示した。
モデルとコードはhttps://github.com/kunyang-YU/Thinking-with-Tablesで入手できる。
関連論文リスト
- TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - TableZoomer: A Collaborative Agent Framework for Large-scale Table Question Answering [26.00027389659854]
TableZoomerは、テーブル質問応答(TQA)タスクのためのプログラミングベースのエージェントフレームワークである。
2)列選択とエンティティリンクを通じてサブテーブルスキーマを動的に生成するクエリ対応テーブルズーム機構,(3)クエリを実行可能なコードに変換するプログラム・オブ・ソート(PoT)戦略により,数値幻覚を緩和する。
論文 参考訳(メタデータ) (2025-09-01T09:53:01Z) - TableMoE: Neuro-Symbolic Routing for Structured Expert Reasoning in Multimodal Table Understanding [3.404552731440374]
TableMoEは、マルチモーダルテーブルデータに対する堅牢で構造化された推論のために特別に設計された、ニューロシンボリックなMixture-of-Connector-Experts (MoCE)アーキテクチャである。
TableMoEは革新的なNeuro-Symbolic Routing機構を備えており、潜在意味トークンの役割を予測し、テーブル要素を専門の専門家に動的にルーティングする。
評価のために、実世界のマルチモーダル劣化と構造的複雑さの下でのストレステストモデルに特化して設計された、挑戦的なWildStructベンチマーク4つをキュレートし、リリースする。
論文 参考訳(メタデータ) (2025-06-26T15:41:34Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - TIME: TabPFN-Integrated Multimodal Engine for Robust Tabular-Image Learning [3.559225731091162]
タブラル・イメージ・マルチモーダル・ラーニングは,特に医学的応用において,様々な課題に対して大きな期待を抱いている。
最近導入されたTabPFNをベースにした新しいマルチモーダルフレームワークであるTabPFN-Integrated Multimodal Engine (TIME)を提案する。
TIMEは、自然に欠落したデータに対して回復力のある堅牢で強力な埋め込みを生成し、事前訓練された視覚バックボーンの画像特徴と組み合わせる。
論文 参考訳(メタデータ) (2025-06-01T03:29:30Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。