Fugu-MT 論文翻訳(概要): SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

論文の概要: SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

arxiv url: http://arxiv.org/abs/2603.08910v1
Date: Mon, 09 Mar 2026 20:28:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:23.814787
Title: SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation
Title（参考訳）: SciTaRC: 言語推論と複雑計算を必要とする科学用語データのベンチマーク
Authors: Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn,
Abstract要約: 現在最先端のAIモデルは、これらの質問の少なくとも23%で失敗している。私たちの分析から、普遍的な「実行ボトルネック」が明らかになる
参考スコア（独自算出の注目度）: 6.778303067306029
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: We introduce SciTaRC, an expert-authored benchmark of questions about tabular data in scientific papers requiring both deep language reasoning and complex computation. We show that current state-of-the-art AI models fail on at least 23% of these questions, a gap that remains significant even for highly capable open-weight models like Llama-3.3-70B-Instruct, which fails on 65.5% of the tasks. Our analysis reveals a universal "execution bottleneck": both code and language models struggle to faithfully execute plans, even when provided with correct strategies. Specifically, code-based methods prove brittle on raw scientific tables, while natural language reasoning primarily fails due to initial comprehension issues and calculation errors.
Abstract（参考訳）: 我々は、深層言語推論と複雑な計算の両方を必要とする科学論文において、表型データに関する質問のエキスパートが作成したベンチマークであるSciTaRCを紹介する。現在の最先端AIモデルは、これらの質問の少なくとも23%で失敗し、65.5%のタスクで失敗するLlama-3.3-70B-Instructのような高度に有能なオープンウェイトモデルでも重要なギャップが残っている。コードモデルと言語モデルの両方が、正しい戦略が提供されても、計画の忠実な実行に苦労しています。具体的には、コードベースの手法は生の科学的な表上で不安定であることを証明するが、自然言語の推論は、初期理解の問題と計算エラーによって主に失敗する。

関連論文リスト

From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。 AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文参考訳（メタデータ） (2026-01-30T14:56:04Z)
Beyond Memorization: Testing LLM Reasoning on Unseen Theory of Computation Tasks [8.210112631285666]
大規模言語モデル(LLM)は、形式的な言語タスクにおいて強力なパフォーマンスを示している。正規言語を用いた決定論的有限オートマトン (DFA) 構築のためのベンチマークを導入する。モデルが実際の質問に対して完璧に精度を達成し、タスクに対して84-90%を達成できることを示すが、その精度は目に見えない問題に対して急激に低下する。
論文参考訳（メタデータ） (2026-01-19T21:00:31Z)
Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文参考訳（メタデータ） (2025-09-25T11:36:09Z)
Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。我々は質問を4段階(易、中、硬、極度硬)に分類する。我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。エクレベルの質問は、根本的に異なる課題を示します。
論文参考訳（メタデータ） (2025-04-16T03:39:38Z)
Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文参考訳（メタデータ） (2025-02-17T09:07:32Z)
LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文参考訳（メタデータ） (2024-06-10T11:50:29Z)
Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文参考訳（メタデータ） (2024-02-27T16:15:03Z)
Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文参考訳（メタデータ） (2022-10-31T17:41:26Z)
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文参考訳（メタデータ） (2022-04-12T09:36:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。