論文の概要: MiMoTable: A Multi-scale Spreadsheet Benchmark with Meta Operations for Table Reasoning
- arxiv url: http://arxiv.org/abs/2412.11711v1
- Date: Mon, 16 Dec 2024 12:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:33.099283
- Title: MiMoTable: A Multi-scale Spreadsheet Benchmark with Meta Operations for Table Reasoning
- Title(参考訳): MiMoTable: テーブル推論のためのメタ操作を備えたマルチスケールスプレッドシートベンチマーク
- Authors: Zheng Li, Yang Du, Mao Zheng, Mingyang Song,
- Abstract要約: 我々はtextbfMeta textbfoperation for textbfTable reasoning, named as MiMoTable を用いた textbfMulttextbfi-scale spreadsheet ベンチマークを提案する。
まず、MiMoTableのテーブルは、実際のシナリオで使用されるスプレッドシートで、7つのドメインをカバーし、異なるタイプを含む。
既存のベンチマークの難易度を測定するための新しい視点として,MiMoTableにおける各質問の難易度を計測するための6つのカテゴリのメタ操作を用いた新しい基準を定義した。
- 参考スコア(独自算出の注目度): 15.197560165762622
- License:
- Abstract: Extensive research has been conducted to explore the capability of Large Language Models (LLMs) for table reasoning and has significantly improved the performance on existing benchmarks. However, tables and user questions in real-world applications are more complex and diverse, presenting an unignorable gap compared to the existing benchmarks. To fill the gap, we propose a \textbf{M}ult\textbf{i}-scale spreadsheet benchmark with \textbf{M}eta \textbf{o}perations for \textbf{Table} reasoning, named as MiMoTable. Specifically, MiMoTable incorporates two key features. First, the tables in MiMoTable are all spreadsheets used in real-world scenarios, which cover seven domains and contain different types. Second, we define a new criterion with six categories of meta operations for measuring the difficulty of each question in MiMoTable, simultaneously as a new perspective for measuring the difficulty of the existing benchmarks. Experimental results show that Claude-3.5-Sonnet achieves the best performance with 77.4\% accuracy, indicating that there is still significant room to improve for LLMs on MiMoTable. Furthermore, we grade the difficulty of existing benchmarks according to our new criteria. Experiments have shown that the performance of LLMs decreases as the difficulty of benchmarks increases, thereby proving the effectiveness of our proposed new criterion.
- Abstract(参考訳): テーブル推論のためのLarge Language Models (LLMs) の能力を調べるために大規模な研究が行われ、既存のベンチマークの性能を大幅に改善した。
しかし、現実のアプリケーションにおけるテーブルやユーザ質問はより複雑で多様であり、既存のベンチマークと比べて無視できないギャップが生じる。
このギャップを埋めるために、MiMoTable という名称の \textbf{M}eta \textbf{o}perations for \textbf{M}ult\textbf{i}-scale spreadsheet benchmark を提案する。
具体的には、MiMoTableには2つの重要な機能がある。
まず、MiMoTableのテーブルは、実際のシナリオで使用されるスプレッドシートで、7つのドメインをカバーし、異なるタイプを含む。
第二に、MiMoTableにおける各質問の難易度を計測するための6つのカテゴリのメタ操作を含む新しい基準を定義し、同時に既存のベンチマークの難易度を測定するための新しい視点として定義する。
実験の結果、Claude-3.5-Sonnetは77.4\%の精度で最高の性能を達成し、MiMoTable上でのLCMの改善の余地は依然として大きいことが示された。
さらに,既存のベンチマークの難易度を,新たな基準に従って評価する。
LLMの性能はベンチマークの難しさが増すにつれて低下し,提案した新たな基準の有効性が証明された。
関連論文リスト
- TableGPT2: A Large Multimodal Model with Tabular Data Integration [22.77225649639725]
TableGPT2は、593.8K以上のテーブルと2.36Mの高品質なクエリテーブル出力を備えた、厳格に事前訓練および微調整されたモデルである。
TableGPT2の重要な革新の1つは、スキーマレベルとセルレベルの情報をキャプチャするために特別に設計されたテーブルエンコーダである。
論文 参考訳(メタデータ) (2024-11-04T13:03:13Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.64465594140019]
本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。
本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。
TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
論文 参考訳(メタデータ) (2024-08-17T11:40:10Z) - SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation [34.8332394229927]
SpreadsheetBenchは,現在の大規模言語モデル(LLM)を,スプレッドシートユーザのワークフローにマージするように設計されている。
合成クエリと単純化されたスプレッドシートファイルに依存する既存のベンチマークとは異なり、SpreadsheetBenchはオンラインExcelフォーラムから収集された912の質問から作られている。
単一ラウンドおよび複数ラウンドの推論条件下での各種LLMの総合評価は,最先端モデル(SOTA)と人為的性能との間に大きなギャップがあることを示唆している。
論文 参考訳(メタデータ) (2024-06-21T09:06:45Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [52.99006895757801]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。
本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。
敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2024-05-30T18:07:13Z) - TabSQLify: Enhancing Reasoning Capabilities of LLMs Through Table Decomposition [6.253771639590562]
テーブル推論は、自然言語の質問と構造化データの両方を理解する必要がある難しいタスクである。
テキスト・ツー・ジェネレーションを利用したテーブルを,より小さく,関連するサブテーブルに分解する新しい方法であるTabifyを提案する。
WikiTQベンチマークでは,64.7%の精度で精度が向上した。
論文 参考訳(メタデータ) (2024-04-15T21:42:20Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。