Fugu-MT 論文翻訳(概要): Automated Text-to-Table for Reasoning-Intensive Table QA: Pipeline Design and Benchmarking Insights

論文の概要: Automated Text-to-Table for Reasoning-Intensive Table QA: Pipeline Design and Benchmarking Insights

arxiv url: http://arxiv.org/abs/2505.19563v1
Date: Mon, 26 May 2025 06:24:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.211186
Title: Automated Text-to-Table for Reasoning-Intensive Table QA: Pipeline Design and Benchmarking Insights
Title（参考訳）: Reasoning-Intensive Table QA: Pipeline Design and Benchmarking Insights
Authors: Shi-Yu Tian, Zhi Zhou, Wei Dong, Ming Yang, Kun-Yang Yu, Zi-Jian Cheng, Lan-Zhe Guo, Yu-Feng Li,
Abstract要約: 本稿では,数式語問題をテーブルベースの推論タスクに変換する自動生成パイプラインAutoT2Tを提案する。パイプラインは同じ推論問題に対して、堅牢性評価をサポートするノイズの多いバージョンを含む、テーブルの複数の変種を生成することができる。 AutoT2TとTabularGSMによる実験的分析により、複雑なテーブルQAタスクにおけるLCMの失敗の根底にある要因は、推論と検索と識別プロセスの密結合であることが明らかとなった。
参考スコア（独自算出の注目度）: 45.5276155343796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning with tabular data holds increasing importance in modern applications, yet comprehensive evaluation methodologies for reasoning-intensive Table Question Answering (QA) tasks remain nascent. Existing research is constrained by two primary bottlenecks: 1) Reliance on costly manually annotated real-world data, which is difficult to cover complex reasoning scenarios; 2) The heterogeneity of table structures hinders systematic analysis of the intrinsic mechanisms behind the underperformance of LLMs, especially in reasoning-intensive tasks. To address these issues, we propose an automated generation pipeline AutoT2T that transforms mathematical word problems into table-based reasoning tasks, eliminating the need for manual annotation. The pipeline can generate multiple variants of a table for the same reasoning problem, including noisy versions to support robustness evaluation. Based on this, we construct a new benchmark TabularGSM, which systematically spans a range of table complexities and trap problems. Experimental analyses through AutoT2T and TabularGSM reveal that the tight coupling between reasoning and retrieval or identification processes is a key factor underlying the failure of LLMs in complex Table QA tasks. This highlights the necessity for models to develop synergistic reasoning capabilities in order to perform effectively in complex Table QA tasks.
Abstract（参考訳）: 表形式のデータによる推論は、現代のアプリケーションではますます重要になっているが、推論集約型テーブル質問回答(QA)タスクに対する包括的な評価手法は、まだ初期段階である。既存の研究は2つの主要なボトルネックに制約されている。 1)複雑な推論シナリオをカバーし難い,手作業による手作業による実世界のデータへの信頼 2) 表構造の不均一性は, LLMの過小評価の背後にある内在的メカニズム, 特に推論集約的なタスクの系統的解析を妨げている。これらの問題に対処するために,数式語問題をテーブルベースの推論タスクに変換する自動生成パイプラインAutoT2Tを提案する。パイプラインは同じ推論問題に対して、堅牢性評価をサポートするノイズの多いバージョンを含む、テーブルの複数の変種を生成することができる。そこで本研究では,テーブルの複雑度とトラップ問題に系統的に分散した新しいベンチマークTabularGSMを構築した。 AutoT2TとTabularGSMによる実験的分析により、複雑なテーブルQAタスクにおけるLCMの失敗の根底にある要因は、推論と検索と識別プロセスの密結合であることが明らかとなった。このことは、複雑なテーブルQAタスクで効果的に実行するために、モデルが相乗的推論機能を開発する必要性を強調している。

関連論文リスト

LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文参考訳（メタデータ） (2025-06-06T05:14:04Z)
TQA-Bench: Evaluating LLMs for Multi-Table Question Answering with Scalable Context and Symbolic Extension [8.489816179329832]
TQA-Benchは,大規模言語モデル(LLM)の複雑なQAタスクをリレーショナルデータ上で処理する能力を評価するために設計された,新しいマルチテーブルQAベンチマークである。我々のベンチマークでは、現実世界のパブリックデータセットから得られた多様なリレーショナルデータベースインスタンスを組み込んでいます。我々は、70億から700億のパラメータにまたがる、オープンソースとクローズドソースの両方のLLMを体系的に評価する。
論文参考訳（メタデータ） (2024-11-29T06:48:13Z)
TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-10-07T04:15:02Z)
Seek and Solve Reasoning for Table Question Answering [49.006950918895306]
本稿では,タスク単純化時の推論プロセスが,タスク自体の単純化よりも有用であることを示す。本稿では,LLMにまず関連情報を求め,質問に答えるように指示するSeek-and-solving Pipelineを提案する。本稿では, SS-CoT経路を用いた実演を用いて, 複雑なTQA課題の解決にLLMを誘導する単一ステップTQA解決プロンプトをこのパイプラインから蒸留する。
論文参考訳（メタデータ） (2024-09-09T02:41:00Z)
H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-29T21:24:19Z)
Exploring the Robustness of Language Models for Tabular Question Answering via Attention Analysis [7.486549276995143]
大規模言語モデル(LLM)は、特定の訓練なしにテーブル理解タスクに取り組むことが示されている。 In-context Learning (ICL), model scale, instruction tune, and domain bias が Tabular QA (TQA) に与える影響を考察する。摂動による注意分散の変化と性能低下との間には強い相関関係がみられた。
論文参考訳（メタデータ） (2024-06-18T15:41:15Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。 UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文参考訳（メタデータ） (2022-12-20T09:15:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。