Fugu-MT 論文翻訳(概要): How well do LLMs reason over tabular data, really?

論文の概要: How well do LLMs reason over tabular data, really?

arxiv url: http://arxiv.org/abs/2505.07453v2
Date: Mon, 02 Jun 2025 15:39:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 16:22:43.35919
Title: How well do LLMs reason over tabular data, really?
Title（参考訳）: LLMが表のデータに対してどの程度の理由があるのか?
Authors: Cornelius Wolff, Madelon Hulsebos,
Abstract要約: 大規模言語モデル(LLM)は自然言語処理に優れるが、表形式のデータよりもその推論能力についてはあまり知られていない。 LLM-as-a-judge法により,より信頼性の高い評価結果が得られることを示す。次に、実際には3つの共通の特徴、欠落値、重複エンティティ、構造変化を反映した表形式の入力を拡張する。
参考スコア（独自算出の注目度）: 2.5015086558362247
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) excel in natural language tasks, but less is known about their reasoning capabilities over tabular data. Prior analyses devise evaluation strategies that poorly reflect an LLM's realistic performance on tabular queries. Moreover, we have a limited understanding of the robustness of LLMs towards realistic variations in tabular inputs. Therefore, we ask: Can general-purpose LLMs reason over tabular data, really?, and focus on two questions 1) are tabular reasoning capabilities of general-purpose LLMs robust to real-world characteristics of tabular inputs, and 2) how can we realistically evaluate an LLM's performance on analytical tabular queries? Building on a recent tabular reasoning benchmark, we first surface shortcomings of its multiple-choice prompt evaluation strategy, as well as commonly used free-form text metrics such as SacreBleu and BERT-score. We show that an LLM-as-a-judge procedure yields more reliable performance insights and unveil a significant deficit in tabular reasoning performance of LLMs. We then extend the tabular inputs reflecting three common characteristics in practice: 1) missing values, 2) duplicate entities, and 3) structural variations. Experiments show that the tabular reasoning capabilities of general-purpose LLMs suffer from these variations, stressing the importance of improving their robustness for realistic tabular inputs.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理に優れるが、表形式のデータよりもその推論能力についてはあまり知られていない。先行分析では,LLMが表型クエリ上での現実的な性能を十分に反映しない評価戦略が考案されている。さらに,書式入力の現実的な変動に対するLLMの堅牢性について,限定的な理解が得られている。したがって、我々は質問する: 汎用LLMは、表データよりも理にかなっているだろうか? 2つの質問に焦点を合わせ 1)表型入力の現実特性に頑健な汎用LLMの表型推論機能である。 2)解析表クエリ上でLLMの性能を現実的に評価するにはどうすればよいか? 最近の表式推論ベンチマークに基づいて、SacreBleu や BERT-score といった一般的なフリーフォームテキストメトリクスと同様に、マルチ選択のプロンプト評価戦略の欠点を初めて表面化する。 LLM-as-a-judge 法によりより信頼性の高い評価結果が得られ,LCM の表型推論性能が著しく低下していることが示される。次に、実際には3つの共通特性を反映した表の入力を拡張する。 1) 欠落した値。 2)重複実体,及び 3) 構造変化。実験により、汎用LLMの表型推論能力はこれらの変動に悩まされ、現実的な表型入力に対する頑健性を向上させることの重要性が強調された。

関連論文リスト

Large Language Models for Spreadsheets: Benchmarking Progress and Evaluating Performance with FLARE [0.0]
大規模言語モデル(LLM)は、様々な領域にまたがるいくつかの重要な機能を示している。本研究では,スプレッドシート機能の実行において,LLMをリードする性能を評価するためのベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-19T03:47:38Z)
LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文参考訳（メタデータ） (2025-06-06T05:14:04Z)
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文参考訳（メタデータ） (2024-12-12T06:08:46Z)
Accurate and Regret-aware Numerical Problem Solver for Tabular Question Answering [29.384514074911955]
本研究では,大規模言語モデルを用いたTabLaPというモデルを提案する。 TabLaPは最先端のモデルよりもかなり正確であることを示し、2つのデータセットで解の精度を5.7%と5.8%改善した。
論文参考訳（メタデータ） (2024-10-10T05:34:00Z)
Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文参考訳（メタデータ） (2024-07-22T20:13:10Z)
Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models [21.10890310571397]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。この研究は、トレーニング中に言語モデルがデータセットを見たかどうかを評価するためのさまざまなテクニックを導入している。次に、トレーニング中に見られたデータセット上でのLLMの数発の学習性能と、トレーニング後にリリースされたデータセットのパフォーマンスを比較した。
論文参考訳（メタデータ） (2024-04-09T10:58:21Z)
Small Models are LLM Knowledge Triggers on Medical Tabular Prediction [39.78560996984352]
小モデルを用いたシナジー学習による汎用的な自己プロンプト手法SERSALを提案する。本研究は,SERSALが言語的プロンプト法に比べて大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-03-03T17:35:52Z)
A Survey of Table Reasoning with Large Language Models [55.2326738851157]
大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。 LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
論文参考訳（メタデータ） (2024-02-13T07:17:52Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。 LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文参考訳（メタデータ） (2023-05-22T14:23:46Z)
Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。本稿では, MMT における LLM の利点と課題を体系的に検討する。また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文参考訳（メタデータ） (2023-04-10T15:51:30Z)
Large Language Models are few(1)-shot Table Reasoners [31.036914270008978]
大規模言語モデル(LLM)は、テキスト推論タスクを解くために、非常に優れた数ショット推論器である。本稿では,LLMが数発の文脈内学習でテーブルタスクでどれだけうまく機能するかを理解することを目的としている。
論文参考訳（メタデータ） (2022-10-13T04:08:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。