論文の概要: Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries
- arxiv url: http://arxiv.org/abs/2312.13671v1
- Date: Thu, 21 Dec 2023 08:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:26:52.807051
- Title: Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries
- Title(参考訳): Text2Analysis: 高度なデータ分析とアンクラークエリによるテーブル質問回答のベンチマーク
- Authors: Xinyi He, Mengyu Zhou, Xinrun Xu, Xiaojun Ma, Rui Ding, Lun Du, Yan
Gao, Ran Jia, Xu Chen, Shi Han, Zejian Yuan, Dongmei Zhang
- Abstract要約: 高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
- 参考スコア(独自算出の注目度): 67.0083902913112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data analysis is crucial in various fields, and large language models
show promise in this area. However, current research mostly focuses on
rudimentary tasks like Text2SQL and TableQA, neglecting advanced analysis like
forecasting and chart generation. To address this gap, we developed the
Text2Analysis benchmark, incorporating advanced analysis tasks that go beyond
the SQL-compatible operations and require more in-depth analysis. We also
develop five innovative and effective annotation methods, harnessing the
capabilities of large language models to enhance data quality and quantity.
Additionally, we include unclear queries that resemble real-world user
questions to test how well models can understand and tackle such challenges.
Finally, we collect 2249 query-result pairs with 347 tables. We evaluate five
state-of-the-art models using three different metrics and the results show that
our benchmark presents introduces considerable challenge in the field of
tabular data analysis, paving the way for more advanced research opportunities.
- Abstract(参考訳): タブラルデータ分析は様々な分野において重要であり、この領域では大きな言語モデルが有望である。
しかし、現在の研究は主にText2SQLやTableQAのような初歩的なタスクに焦点を当てており、予測やチャート生成のような高度な分析を無視している。
このギャップに対処するために、我々はtext2 analysis benchmarkを開発し、sql互換の操作を超えて、より詳細な分析を必要とする高度な分析タスクを組み込んだ。
また,データ品質と量を高めるために,大規模言語モデルの能力を活用した5つの革新的かつ効果的なアノテーション手法を開発した。
さらに、実際のユーザの質問に類似した不明瞭なクエリも含み、モデルがどのようにこのような課題を理解し、対処できるかをテストする。
最後に、347のテーブルで2249のクエリ結果ペアを収集します。
3つの異なるメトリクスを用いて5つの最先端モデルを評価し,その結果から,表データ解析の分野において,ベンチマークが相当な課題を呈することを示し,より高度な研究機会への道筋を拓いた。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Facts-and-Feelings: Capturing both Objectivity and Subjectivity in Table-to-Text Generation [41.09752906121257]
私たちは3849のデータインスタンスを持つTa2TSデータセットを紹介します。
本稿では,線形化テーブル上でのシーケンス・ツー・シーケンスの微調整と,一般的な大言語モデルへのプロンプトを行う。
論文 参考訳(メタデータ) (2024-06-15T08:41:44Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Towards Robustness of Text-to-Visualization Translation against Lexical and Phrasal Variability [27.16741353384065]
テキスト・トゥ・バイ・モデルはしばしば、質問における単語間の語彙マッチングとデータスキーマにおけるトークンに依存している。
本研究では,これまで検討されていない領域である現行のテキスト・ツー・ヴィジュア・モデルのロバスト性について検討する。
本稿では,2つの変種における入力摂動に対処するために特別に設計されたGRED(Retrieval-Augmented Generation, RAG)技術に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T16:12:50Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey [17.19337964440007]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。
この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。
既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文 参考訳(メタデータ) (2024-02-27T23:59:01Z) - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。