論文の概要: How well do LLMs reason over tabular data, really?
- arxiv url: http://arxiv.org/abs/2505.07453v2
- Date: Mon, 02 Jun 2025 15:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.35919
- Title: How well do LLMs reason over tabular data, really?
- Title(参考訳): LLMが表のデータに対してどの程度の理由があるのか?
- Authors: Cornelius Wolff, Madelon Hulsebos,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理に優れるが、表形式のデータよりもその推論能力についてはあまり知られていない。
LLM-as-a-judge法により,より信頼性の高い評価結果が得られることを示す。
次に、実際には3つの共通の特徴、欠落値、重複エンティティ、構造変化を反映した表形式の入力を拡張する。
- 参考スコア(独自算出の注目度): 2.5015086558362247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel in natural language tasks, but less is known about their reasoning capabilities over tabular data. Prior analyses devise evaluation strategies that poorly reflect an LLM's realistic performance on tabular queries. Moreover, we have a limited understanding of the robustness of LLMs towards realistic variations in tabular inputs. Therefore, we ask: Can general-purpose LLMs reason over tabular data, really?, and focus on two questions 1) are tabular reasoning capabilities of general-purpose LLMs robust to real-world characteristics of tabular inputs, and 2) how can we realistically evaluate an LLM's performance on analytical tabular queries? Building on a recent tabular reasoning benchmark, we first surface shortcomings of its multiple-choice prompt evaluation strategy, as well as commonly used free-form text metrics such as SacreBleu and BERT-score. We show that an LLM-as-a-judge procedure yields more reliable performance insights and unveil a significant deficit in tabular reasoning performance of LLMs. We then extend the tabular inputs reflecting three common characteristics in practice: 1) missing values, 2) duplicate entities, and 3) structural variations. Experiments show that the tabular reasoning capabilities of general-purpose LLMs suffer from these variations, stressing the importance of improving their robustness for realistic tabular inputs.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に優れるが、表形式のデータよりもその推論能力についてはあまり知られていない。
先行分析では,LLMが表型クエリ上での現実的な性能を十分に反映しない評価戦略が考案されている。
さらに,書式入力の現実的な変動に対するLLMの堅牢性について,限定的な理解が得られている。
したがって、我々は質問する: 汎用LLMは、表データよりも理にかなっているだろうか?
2つの質問に焦点を合わせ
1)表型入力の現実特性に頑健な汎用LLMの表型推論機能である。
2)解析表クエリ上でLLMの性能を現実的に評価するにはどうすればよいか?
最近の表式推論ベンチマークに基づいて、SacreBleu や BERT-score といった一般的なフリーフォームテキストメトリクスと同様に、マルチ選択のプロンプト評価戦略の欠点を初めて表面化する。
LLM-as-a-judge 法によりより信頼性の高い評価結果が得られ,LCM の表型推論性能が著しく低下していることが示される。
次に、実際には3つの共通特性を反映した表の入力を拡張する。
1) 欠落した値。
2)重複実体,及び
3) 構造変化。
実験により、汎用LLMの表型推論能力はこれらの変動に悩まされ、現実的な表型入力に対する頑健性を向上させることの重要性が強調された。
関連論文リスト
- Accurate and Regret-aware Numerical Problem Solver for Tabular Question Answering [29.384514074911955]
本研究では,大規模言語モデルを用いたTabLaPというモデルを提案する。
TabLaPは最先端のモデルよりもかなり正確であることを示し、2つのデータセットで解の精度を5.7%と5.8%改善した。
論文 参考訳(メタデータ) (2024-10-10T05:34:00Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。
重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Large Language Models are few(1)-shot Table Reasoners [31.036914270008978]
大規模言語モデル(LLM)は、テキスト推論タスクを解くために、非常に優れた数ショット推論器である。
本稿では,LLMが数発の文脈内学習でテーブルタスクでどれだけうまく機能するかを理解することを目的としている。
論文 参考訳(メタデータ) (2022-10-13T04:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。