論文の概要: TABQAWORLD: Optimizing Multimodal Reasoning for Multi-Turn Table Question Answering
- arxiv url: http://arxiv.org/abs/2604.03393v1
- Date: Fri, 03 Apr 2026 18:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.551783
- Title: TABQAWORLD: Optimizing Multimodal Reasoning for Multi-Turn Table Question Answering
- Title(参考訳): TABQAWORLD:マルチタスクテーブル質問応答に対するマルチモーダル推論の最適化
- Authors: Tung Sum Thomas Kwok, Xinyu Wang, Xiaofeng Lin, Peng Lu, Chunhe Wang, Changlun Li, Hanwei Wu, Nan Tang, Elisa Kreiss, Guang Cheng,
- Abstract要約: TABQAWORLDはテーブル推論フレームワークで、表現と推定を通じてアクションを共同で最適化する。
ベースラインよりも4.87%の精度向上を実現し、5.42%の精度向上と33.35%の推論遅延削減を実現している。
- 参考スコア(独自算出の注目度): 16.794111749114766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal reasoning has emerged as a powerful framework for enhancing reasoning capabilities of reasoning models. While multi-turn table reasoning methods have improved reasoning accuracy through tool use and reward modeling, they rely on fixed text serialization for table state readouts. This introduces representation errors in table encoding that significantly accumulate over multiple turns. Such accumulation is alleviated by tabular grounding methods in the expense of inference compute and cost, rendering real world deployment impractical. To address this, we introduce TABQAWORLD, a table reasoning framework that jointly optimizes tabular action through representation and estimation. For representation, TABQAWORLD employs an action-conditioned multimodal selection policy, which dynamically switches between visual and textual representations to maximize table state readout reliability. For estimation, TABQAWORLD optimizes stepwise reasoning trajectory through table metadata including dimension, data types and key values, safely planning trajectory and compressing low-complexity actions to reduce conversation turns and latency. Designed as a training-free framework, empirical evaluations show that TABQAWORLD achieves state-of-the-art performance with 4.87% accuracy improvements over baselines, with 5.42% accuracy gain and 33.35% inference latency reduction over static settings, establishing a new standard for reliable and efficient table reasoning.
- Abstract(参考訳): 推論モデルの推論能力を高めるための強力なフレームワークとしてマルチモーダル推論が登場した。
マルチターンテーブル推論手法は、ツールの使用や報酬モデリングによって推論精度を向上する一方で、テーブル状態の読み出しに固定テキストシリアライズに依存する。
これはテーブルエンコーディングにおける表現エラーを導入し、複数のターンに大きく蓄積する。
このような蓄積は、推測計算とコストを犠牲にして表の接地法によって軽減され、現実の展開を非現実的にする。
そこで本稿では,表の動作を表現と推定によって協調的に最適化するテーブル推論フレームワークであるTABQAWORLDを紹介する。
TABQAWORLDは動作条件付きマルチモーダル選択ポリシーを採用しており、視覚的およびテキスト的表現を動的に切り替えてテーブル状態の読み出し信頼性を最大化する。
推定のために、TABQAWORLDは、次元、データタイプ、キー値を含むテーブルメタデータによる段階的推論軌跡を最適化し、安全に軌道を計画し、低複雑さな動作を圧縮し、会話のターンとレイテンシを低減する。
トレーニングフリーのフレームワークとして設計された実験的な評価によると、TABQAWORLDはベースラインよりも4.87%精度が向上し、5.42%の精度向上と33.35%の推論遅延が静的設定よりも減少し、信頼性と効率的なテーブル推論のための新しい標準を確立した。
関連論文リスト
- TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning [44.20336483508951]
テーブル推論は、意味的理解と正確な数値操作を共同で行うモデルを必要とする。
これらの制約に対処するため、我々は以前TableMindをチューニングベースの自律型プログラムエージェントとして提案した。
この基盤をTableMind++に拡張し、新しい不確実性を認識した推論フレームワークを導入しました。
論文 参考訳(メタデータ) (2026-03-08T08:31:33Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - TableMind: An Autonomous Programmatic Agent for Tool-Augmented Table Reasoning [10.267950603662776]
TableMindは、データ分析と正確な数値推論のために、セキュアなサンドボックス環境で、マルチターンツールの実行、書き込み、実行を自律的に実行する、ツール統合テーブル推論エージェントである。
これらの機能を実現するために、我々は強力な事前学習言語モデルの上に構築された2段階の微調整パラダイムを採用する。
論文 参考訳(メタデータ) (2025-09-08T02:00:31Z) - TableZoomer: A Collaborative Agent Framework for Large-scale Table Question Answering [26.00027389659854]
TableZoomerは、テーブル質問応答(TQA)タスクのためのプログラミングベースのエージェントフレームワークである。
2)列選択とエンティティリンクを通じてサブテーブルスキーマを動的に生成するクエリ対応テーブルズーム機構,(3)クエリを実行可能なコードに変換するプログラム・オブ・ソート(PoT)戦略により,数値幻覚を緩和する。
論文 参考訳(メタデータ) (2025-09-01T09:53:01Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - Reasoning-Table: Exploring Reinforcement Learning for Table Reasoning [24.624844234355734]
Reasoning-Tableは、テーブル推論への強化学習(RL)の最初の応用であり、最先端の性能を実現している。
Reasoning-Tableは大きな言語モデルを推論する堅牢なテーブルとして登場し、Claude-3.7-Sonnetのようなより大きなプロプライエタリなモデルを4.0%上回っている。
論文 参考訳(メタデータ) (2025-06-02T14:18:09Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。