論文の概要: CFMS: A Coarse-to-Fine Multimodal Synthesis Framework for Enhanced Tabular Reasoning
- arxiv url: http://arxiv.org/abs/2604.10973v1
- Date: Mon, 13 Apr 2026 04:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.315857
- Title: CFMS: A Coarse-to-Fine Multimodal Synthesis Framework for Enhanced Tabular Reasoning
- Title(参考訳): CFMS: 拡張タブラル推論のための粗大なマルチモーダル合成フレームワーク
- Authors: Qixian Huang, Hongqiang Lin, Tong Fu, Yingsen Wang, Zhenghui Fu, Qirui Wang, Yiding Sun, Dongxu Zhang,
- Abstract要約: 本稿では,記号的推論から高次視覚知覚を階層的に分離する新しい2段階パラダイムを提案する。
このフレームワークは、大きなテーブルを扱う場合や、小さなバックボーンモデルでインスタンス化する場合に、特に堅牢性を示す。
- 参考スコア(独自算出の注目度): 8.174055268023272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning over tabular data is a crucial capability for tasks like question answering and fact verification, as it requires models to comprehend both free-form questions and semi-structured tables. However, while methods like Chain-of-Thought (CoT) introduce reasoning chains, purely symbolic methodes are inherently limited by their blindness to holistic visual patterns. To address this, we propose the Coarse-to-Fine Multimodal Synthesis framework (CFMS), a novel two-stage paradigm that hierarchically decouples high-level visual perception from granular symbolic reasoning. In the Coarse Stage, CFMS leverages the Multimodal Large Language Models (MLLMs) to perform a one-time synthesis of a multi-perspective knowledge tuple. This tuple subsequently serves as a dynamic reasoning map to guide the fine stage, where a symbolic engine executes a targeted and efficient sequence of iterative operations over the table. Extensive experiments on the WikiTQ and TabFact benchmarks demonstrate that CFMS achieves competitive accuracy. The framework exhibits particular robustness when handling large tables and when instantiated with smaller backbone models, validating its effectiveness and generalizability.
- Abstract(参考訳): 表形式の質問と半構造化テーブルの両方を理解するモデルを必要とするため、質問応答や事実検証といったタスクにおいて、表形式のデータに対する推論は重要な機能である。
しかし、Chain-of-Thought (CoT) のような手法は推論連鎖を導入しているが、純粋に象徴的な手法は視覚の盲点から全体的視覚パターンへと本質的に制限されている。
そこで本研究では,高次視覚知覚を粒度の記号的推論から階層的に切り離す2段階のパラダイムであるCFMS(Coarse-to-Fine Multimodal Synthesis framework)を提案する。
粗い段階では、CFMSはマルチモーダル大言語モデル(MLLM)を活用して、マルチパースペクティブな知識タプルの1回合成を行う。
このタプルはその後、ファインステージを誘導する動的推論マップとして機能し、シンボリックエンジンがテーブル上の反復操作のターゲットで効率的なシーケンスを実行する。
WikiTQとTabFactベンチマークの大規模な実験は、CFMSが競争精度を達成していることを示している。
このフレームワークは、大きなテーブルを扱う場合や、小さなバックボーンモデルでインスタンス化する場合に特に堅牢性を示し、その有効性と一般化性を検証する。
関連論文リスト
- UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Plugging Schema Graph into Multi-Table QA: A Human-Guided Framework for Reducing LLM Reliance [8.83042313837811]
本稿では,人為的な関係知識を活用して,スキーマリンクとジョインパスを明示的にエンコードするグラフベースのフレームワークを提案する。
自然言語クエリが与えられた場合,提案手法は解析可能な推論チェーンを構築するためにグラフを検索し,プルーニングとサブパスマージ戦略によって支援する。
標準ベンチマークと現実的な大規模データセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2025-06-04T20:21:52Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with
Large Language Models [68.05046964022844]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)のプロンプトを活用することで、顕著な推論機能を明らかにしている。
本稿では,入力質問の種類が不明な混合タスクシナリオにおいて,一般化可能なCoTプロンプト機構であるGeM-CoTを提案する。
この技術設計により、GeM-CoTは10の公開推論タスクと23のBBHタスクにおいて優れた一般化能力と優れたパフォーマンスを同時に享受する。
論文 参考訳(メタデータ) (2023-10-10T15:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。