論文の概要: TabTracer: Monte Carlo Tree Search for Complex Table Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.14089v1
- Date: Sun, 15 Feb 2026 10:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.647933
- Title: TabTracer: Monte Carlo Tree Search for Complex Table Reasoning with Large Language Models
- Title(参考訳): TabTracer: Monte Carlo Tree Search for Complex Table Reasoning with Large Language Models
- Authors: Zhizhao Luo, Zhaojing Luo, Meihui Zhang, Rui Mao,
- Abstract要約: TabTracerは、中間テーブル状態上のマルチステップツールコールをコーディネートするエージェントフレームワークである。
型付き操作と軽量数値およびフォーマットチェックによるステップレベルの検証を実施する。
予算を意識したプルーニング、重複解消、トークンコスト削減のためのモノトニティゲートによる状態ハッシュによる冗長性を低減する。
- 参考スコア(独自算出の注目度): 10.584052101655537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have emerged as powerful tools for natural language table reasoning, where there are two main categories of methods. Prompt-based approaches rely on language-only inference or one-pass program generation without step-level verification. Agent-based approaches use tools in a closed loop, but verification is often local and backtracking is limited, allowing errors to propagate and increasing cost. Moreover, they rely on chain- or beam-style trajectories that are typically combinatorially redundant, leading to high token costs. In this paper, we propose TabTracer, an agentic framework that coordinates multi-step tool calls over intermediate table states, with explicit state tracking for verification and rollback. First, it enforces step-level verification with typed operations and lightweight numeric and format checks to provide reliable rewards and suppress hallucinations. Second, execution-feedback Monte Carlo Tree Search maintains a search tree of candidate table states and uses backpropagated reflection scores to guide UCB1 selection and rollback via versioned snapshots. Third, it reduces redundancy with budget-aware pruning, deduplication, and state hashing with a monotonicity gate to cut token cost. Comprehensive evaluation on TabFact, WikiTQ, and CRT datasets shows that TabTracer outperforms state-of-the-art baselines by up to 6.7% in accuracy while reducing token consumption by 59--84%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語テーブル推論の強力なツールとして登場し、2つの主要なカテゴリのメソッドが存在する。
Promptベースのアプローチは、ステップレベルの検証なしで言語のみの推論やワンパスプログラム生成に依存している。
エージェントベースのアプローチでは、クローズドループでツールを使用するが、検証はしばしばローカルで、バックトラッキングは制限され、エラーが伝播しコストが増大する。
さらに、それらは一般的に組合せ的に冗長なチェーンまたはビームスタイルの軌道に依存しており、高いトークンコストをもたらす。
本稿では,中間テーブル状態上の多段階ツールコールをコーディネートするエージェントフレームワークであるTabTracerを提案する。
まず、型付き操作と軽量な数値とフォーマットチェックによるステップレベルの検証を実施し、信頼性の高い報酬を提供し、幻覚を抑制する。
第二に、実行フィードバックのMonte Carlo Tree Searchは、候補テーブル状態の検索ツリーを保持し、バックプロパゲートされたリフレクションスコアを使用して、UTB1の選択とバージョン付きスナップショットによるロールバックをガイドする。
第3に、トークンコストを削減するために、単調なゲートによる予算対応のプルーニング、重複解消、状態ハッシュによる冗長性を低減します。
TabFact、WikiTQ、CRTデータセットの総合的な評価は、TabTracerが最先端のベースラインを最大6.7%上回り、トークン消費を59~84%削減していることを示している。
関連論文リスト
- Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval [2.159285655678094]
Col-Banditは、Pop-K$識別問題として再ランク付けすることで、この計算負担を軽減するクエリ時プルーニングアルゴリズムである。
ドキュメント全体やトークンをオフラインにプルークする粗い粒度のアプローチとは異なり、Col-Banditはオンザフライで相互作用行列をスペーサーする。
実験の結果、Col-Bandit は MaxSim FLOPs を最大 5$times$ まで下げながらランキングの忠実さを保っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T21:27:01Z) - Reasoning by Commented Code for Table Question Answering [2.497926557563177]
Table Question Answering (TableQA)は、大きな言語モデルにとって大きな課題となる。
既存手法は、エンドツーエンドの応答生成や一行のプログラムクエリに依存するが、数値的精度が限られており、解釈可能性も低下している。
この記事では、Pythonプログラム生成プロセスに明示的な推論を組み込んだ、コメント付き、ステップバイステップのコード生成フレームワークを紹介します。
論文 参考訳(メタデータ) (2026-01-31T06:16:35Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Rethinking Table Pruning in TableQA: From Sequential Revisions to Gold Trajectory-Supervised Parallel Search [22.58777921256103]
Table Question Answering (TableQA)は、テーブルプルーニングから大きな恩恵を受けます。
既存のテーブルプルーニング法は、信頼性の低い批判信号によって駆動されるシーケンシャルなリビジョンに依存している。
本研究では,テーブルプルーニングを逐次リビジョンからゴールドトラジェクタによる並列探索に変換する新しいテーブルプルーニングフレームワークTabTrimを提案する。
論文 参考訳(メタデータ) (2026-01-07T12:08:59Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning [77.01182934427095]
TaTTooは、ツールベースの検証を統合し、正確な報酬管理を提供する新しいテーブルグラウンドのPRMフレームワークである。
私たちはTTTooを2段階のパラダイムでトレーニングします。ツール使用推論パターンをキャプチャするために、コールドスタートの教師による微調整を行い、続いて強化学習を行い、私たちのモデルをテーブルベースの検証と整合させます。
論文 参考訳(メタデータ) (2025-10-07T17:59:41Z) - GraphRunner: A Multi-Stage Framework for Efficient and Accurate Graph-Based Retrieval [3.792463570467098]
GraphRunnerは、新しいグラフベースの検索フレームワークで、計画、検証、実行の3つの異なる段階で動作する。
推論エラーを著しく低減し、実行前に幻覚を検出する。
GRBenchデータセットによる評価は、GraphRunnerが既存のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-07-11T18:10:01Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval [22.35942074715463]
Chain-of-Thought (CoT) は大規模言語モデル(LLM)において複雑な推論を可能にする
本稿では,個別動作からなる遷移型推論フレームワークであるState Machine Reasoning (SMR)を提案する。
BEIRとBRIGHTベンチマークの実験では、SMRは検索性能(nDCG@10)を3.4%改善し、トークン使用量を74.4%削減した。
論文 参考訳(メタデータ) (2025-05-29T04:04:25Z) - T^2Agent A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search [51.91311158085973]
多重モーダル誤報は、しばしば混合偽造源から発生し、動的推論と適応的検証を必要とする。
我々はモンテカルロ木探索を用いたツールキットを組み込んだ新しい誤情報検出剤T2Agentを提案する。
大規模な実験により、T2Agentは、混在するマルチモーダル誤報ベンチマークにおいて、既存のベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-26T09:50:55Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。