論文の概要: TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding
- arxiv url: http://arxiv.org/abs/2509.14671v1
- Date: Thu, 18 Sep 2025 07:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.101059
- Title: TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding
- Title(参考訳): TableDART:テーブル理解のための動的適応型マルチモードルーティング
- Authors: Xiaobo Xing, Wei Yuan, Tong Chen, Quoc Viet Hung Nguyen, Xiangliang Zhang, Hongzhi Yin,
- Abstract要約: TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
- 参考スコア(独自算出の注目度): 52.59372043981724
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modeling semantic and structural information from tabular data remains a core challenge for effective table understanding. Existing Table-as-Text approaches flatten tables for large language models (LLMs), but lose crucial structural cues, while Table-as-Image methods preserve structure yet struggle with fine-grained semantics. Recent Table-as-Multimodality strategies attempt to combine textual and visual views, but they (1) statically process both modalities for every query-table pair within a large multimodal LLMs (MLLMs), inevitably introducing redundancy and even conflicts, and (2) depend on costly fine-tuning of MLLMs. In light of this, we propose TableDART, a training-efficient framework that integrates multimodal views by reusing pretrained single-modality models. TableDART introduces a lightweight 2.59M-parameter MLP gating network that dynamically selects the optimal path (either Text-only, Image-only, or Fusion) for each table-query pair, effectively reducing redundancy and conflicts from both modalities. In addition, we propose a novel agent to mediate cross-modal knowledge integration by analyzing outputs from text- and image-based models, either selecting the best result or synthesizing a new answer through reasoning. This design avoids the prohibitive costs of full MLLM fine-tuning. Extensive experiments on seven benchmarks show that TableDART establishes new state-of-the-art performance among open-source models, surpassing the strongest baseline by an average of 4.02%. The code is available at: https://anonymous.4open.science/r/TableDART-C52B
- Abstract(参考訳): 表データからのセマンティックな情報と構造的な情報をモデル化することは、効果的な表理解にとって重要な課題である。
既存のTable-as-Textは、大きな言語モデル(LLM)のためのフラットなテーブルにアプローチするが、重要な構造的手がかりを失う。
近年のTable-as-Multimodality戦略は,テキストビューとビジュアルビューを組み合わせているが,(1)大規模マルチモーダルLLM(MLLM)内のクエリテーブルペア毎のモダリティを静的に処理し,冗長性や競合を必然的に導入し,(2)高価なMLLMの微調整に依存する。
そこで本研究では,事前学習した単一モダリティモデルを再利用してマルチモーダルビューを統合する,学習効率の高いフレームワークであるTableDARTを提案する。
TableDARTは2.59MパラメータのMLPゲーティングネットワークを導入し、各テーブルクエリペアに対して最適なパス(テキストのみ、イメージのみ、あるいはフュージョン)を動的に選択し、冗長性と両モード間の競合を効果的に低減する。
さらに,テキストおよび画像ベースモデルからの出力を分析し,最適な結果を選択するか,推論によって新たな回答を合成することにより,モーダル間知識統合を仲介する新しいエージェントを提案する。
この設計はMLLMファインチューニングの禁止コストを回避する。
7つのベンチマークの大規模な実験は、TableDARTがオープンソースモデルの間で新しい最先端のパフォーマンスを確立し、平均4.02%のベースラインを超えたことを示している。
コードは以下の通り。 https://anonymous.4open.science/r/TableDART-C52B
関連論文リスト
- TableMoE: Neuro-Symbolic Routing for Structured Expert Reasoning in Multimodal Table Understanding [3.404552731440374]
TableMoEは、マルチモーダルテーブルデータに対する堅牢で構造化された推論のために特別に設計された、ニューロシンボリックなMixture-of-Connector-Experts (MoCE)アーキテクチャである。
TableMoEは革新的なNeuro-Symbolic Routing機構を備えており、潜在意味トークンの役割を予測し、テーブル要素を専門の専門家に動的にルーティングする。
評価のために、実世界のマルチモーダル劣化と構造的複雑さの下でのストレステストモデルに特化して設計された、挑戦的なWildStructベンチマーク4つをキュレートし、リリースする。
論文 参考訳(メタデータ) (2025-06-26T15:41:34Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - Texts or Images? A Fine-grained Analysis on the Effectiveness of Input Representations and Models for Table Question Answering [16.790216473975146]
2つの視点から表表現とモデルの組み合わせの有効性に関する最初の制御された研究を行う。
テーブル表現とモデルの組み合わせはセットアップによって異なります。
本稿では,テーブル表現を動的に選択するFRESを提案する。
論文 参考訳(メタデータ) (2025-05-20T09:36:17Z) - Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。
そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。
汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文 参考訳(メタデータ) (2024-06-12T11:27:03Z) - TDeLTA: A Light-weight and Robust Table Detection Method based on
Learning Text Arrangement [34.73880086005418]
本稿では,学習テキストアレンジメント(TDeLTA)に基づく新しい,軽量で堅牢なテーブル検出手法を提案する。
表を正確に特定するために,表内の意味的役割に応じてテキストブロックを4つのカテゴリに分類するテキスト分類タスクを設計する。
いくつかの最先端の手法と比較して、TDeLTAは大規模な公開データセットの3.1Mモデルパラメータで競合する結果を得る。
論文 参考訳(メタデータ) (2023-12-18T09:18:43Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。