論文の概要: RUST-BENCH: Benchmarking LLM Reasoning on Unstructured Text within Structured Tables
- arxiv url: http://arxiv.org/abs/2511.04491v1
- Date: Thu, 06 Nov 2025 16:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.494029
- Title: RUST-BENCH: Benchmarking LLM Reasoning on Unstructured Text within Structured Tables
- Title(参考訳): RUST-BENCH:構造化テーブル内の非構造化テキスト上でのLLM推論のベンチマーク
- Authors: Nikhil Abhyankar, Purvi Chaurasia, Sanchit Kabra, Ananya Srivastava, Vivek Gupta, Chandan K. Reddy,
- Abstract要約: RUST-BENCHは、2つのドメインにまたがる2031の現実世界のテーブルから7966の質問のベンチマークである。
RUST-BENCHは以前の研究とは異なり、スケール、不均一性、ドメイン特異性、推論の複雑さを共同で評価している。
- 参考スコア(独自算出の注目度): 18.27902389579678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing tabular reasoning benchmarks mostly test models on small, uniform tables, underrepresenting the complexity of real-world data and giving an incomplete view of Large Language Models' (LLMs) reasoning abilities. Real tables are long, heterogeneous, and domain-specific, mixing structured fields with free text and requiring multi-hop reasoning across thousands of tokens. To address this gap, we introduce RUST-BENCH, a benchmark of 7966 questions from 2031 real-world tables spanning two domains: i) RB-Science (NSF grant records) and ii) RB-Sports (NBA statistics). Unlike prior work, RUST-BENCH evaluates LLMs jointly across scale, heterogeneity, domain specificity, and reasoning complexity. Experiments with open-source and proprietary models show that LLMs struggle with heterogeneous schemas and complex multi-hop inference, revealing persistent weaknesses in current architectures and prompting strategies. RUST-BENCH establishes a challenging new testbed for advancing tabular reasoning research.
- Abstract(参考訳): 既存の表式推論ベンチマークは、主に小さな均一なテーブル上でモデルをテストし、実世界のデータの複雑さを過小評価し、Large Language Models(LLM)推論能力の不完全なビューを与える。
リアルテーブルは長く、異質で、ドメイン固有であり、構造化されたフィールドを自由テキストで混合し、何千ものトークンに対してマルチホップ推論を必要とする。
このギャップに対処するために、2031年の実世界のテーブルから7966の質問をベンチマークしたRUST-BENCHを紹介します。
一 RB-Science(NSF認可記録)及び
二 RBスポーツ(NBA統計)
RUST-BENCHは以前の研究とは異なり、スケール、不均一性、ドメイン特異性、推論の複雑さを共同で評価している。
オープンソースおよびプロプライエタリなモデルによる実験では、LLMが異種スキーマと複雑なマルチホップ推論に苦しむことを示し、現在のアーキテクチャの弱点を明らかにし、戦略を推進している。
RUST-BENCHは、表の推論研究を進めるための挑戦的な新しいテストベッドを確立する。
関連論文リスト
- Same Content, Different Representations: A Controlled Study for Table QA [15.896655757672441]
リアルタイム設定におけるテーブル質問回答(Table QA)は、構造化されたデータベースとテキストフィールドを含む半構造化されたテーブルの両方で操作する必要がある。
既存のベンチマークは固定データ形式に結びついており、表現自体がモデルパフォーマンスに与える影響を体系的に検討していない。
コンテント定数を一定に保ちながら構造を変化させることによりテーブル表現の役割を分離する最初の制御された研究について述べる。
論文 参考訳(メタデータ) (2025-09-26T22:33:19Z) - Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。
本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T11:36:09Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models [30.26407735827857]
表構造データによる推論は、大規模言語モデル(LLM)に重大な課題をもたらす
本稿では,表理解能力と表推論能力の両方を測定する総合的な表推論進化ベンチマークTReBを提案する。
我々は3つの異なる推論モード(TCoT, PoT, ICoT)でテーブル推論能力を頑健に測定する評価フレームワークを構築した。
論文 参考訳(メタデータ) (2025-06-23T09:02:04Z) - RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis [16.572608600078922]
RealHiTBenchは、様々な入力フォーマットにわたるLarge Language Models (LLM)のパフォーマンスを評価するために設計されたベンチマークである。
LLMを25個使用した実験の結果,RealHiTBenchは本当に難しいベンチマークであることがわかった。
また、階層的なヘッダをツリー構造に整理するツリーベースのパイプラインであるTreeThinkerも開発しています。
論文 参考訳(メタデータ) (2025-06-16T12:19:08Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering [54.486757407849915]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。