論文の概要: Table Meets LLM: Can Large Language Models Understand Structured Table
Data? A Benchmark and Empirical Study
- arxiv url: http://arxiv.org/abs/2305.13062v4
- Date: Sat, 17 Feb 2024 08:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 07:00:21.809419
- Title: Table Meets LLM: Can Large Language Models Understand Structured Table
Data? A Benchmark and Empirical Study
- Title(参考訳): 大規模言語モデルは構造化テーブルデータを理解することができるか?
ベンチマークと実証的研究
- Authors: Yuan Sui, Mengyu Zhou, Mingjie Zhou, Shi Han, Dongmei Zhang
- Abstract要約: 大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
我々は,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計することで,これを理解しようとしている。
その結果、テーブル入力形式、コンテンツ順序、ロールプロンプト、パーティションマークなど、いくつかの入力選択によってパフォーマンスが変化していることが判明した。
- 参考スコア(独自算出の注目度): 47.6239689986714
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are becoming attractive as few-shot reasoners to
solve Natural Language (NL)-related tasks. However, there is still much to
learn about how well LLMs understand structured data, such as tables. Although
tables can be used as input to LLMs with serialization, there is a lack of
comprehensive studies that examine whether LLMs can truly comprehend such data.
In this paper, we try to understand this by designing a benchmark to evaluate
the structural understanding capabilities (SUC) of LLMs. The benchmark we
create includes seven tasks, each with its own unique challenges, e.g., cell
lookup, row retrieval, and size detection. We perform a series of evaluations
on GPT-3.5 and GPT-4. We find that performance varied depending on several
input choices, including table input format, content order, role prompting, and
partition marks. Drawing from the insights gained through the benchmark
evaluations, we propose \textit{self-augmentation} for effective structural
prompting, such as critical value / range identification using internal
knowledge of LLMs. When combined with carefully chosen input choices, these
structural prompting methods lead to promising improvements in LLM performance
on a variety of tabular tasks, e.g., TabFact($\uparrow2.31\%$),
HybridQA($\uparrow2.13\%$), SQA($\uparrow2.72\%$), Feverous($\uparrow0.84\%$),
and ToTTo($\uparrow5.68\%$). We believe that our open source benchmark and
proposed prompting methods can serve as a simple yet generic selection for
future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になりつつある。
しかし、LLMがテーブルのような構造化データをどのように理解しているかは、まだ学ぶべきことがたくさんある。
テーブルはシリアライゼーションを伴うLSMへの入力として使用できるが、LSMがそのようなデータを真に理解できるかどうかを調べる包括的な研究は乏しい。
本稿では,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計し,これを理解しようと試みる。
ベンチマークには7つのタスクが含まれており、それぞれがセルルックアップ、行検索、サイズ検出など、独自の課題を持つ。
GPT-3.5とGPT-4について一連の評価を行った。
テーブル入力形式,コンテンツ順序,ロールプロンプト,パーティションマークなど,複数の入力選択によるパフォーマンスの変化が確認された。
評価の結果から,LLMの内部知識を用いた臨界値/範囲識別などの効果的な構造的プロンプトのためのtextit{self-augmentation}を提案する。
慎重に選択された入力選択と組み合わせることで、TabFact($\uparrow2.31\%$)、HybridQA($\uparrow2.13\%$)、SQA($\uparrow2.72\%$)、Feverous($\uparrow0.84\%$)、ToTTo($\uparrow5.68\%$$)といった様々なタブタスクにおけるLCMのパフォーマンスが向上する。
当社のオープンソースベンチマークと提案手法は,今後の研究において,単純かつ汎用的な選択として機能すると思います。
関連論文リスト
- Call Me When Necessary: LLMs can Efficiently and Faithfully Reason over
Structured Environments [42.05859466572793]
本稿では,構造化環境に対する効率的な推論を行うために,Reasoning-Path-Editing (Readi)を提案する。
Readiはクエリが与えられた推論パスを生成し、必要なときにのみそのパスを編集する。
3つのKGQAデータセットと2つのTableQAデータセットの実験結果は、Readiの有効性を示している。
論文 参考訳(メタデータ) (2024-03-13T14:59:07Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Tree-Based Hard Attention with Self-Motivation for Large Language Models [7.2677650379517775]
大きな言語モデル(LLM)は、平易なテキストの理解と生成に優れる。
階層的なテキスト構造を扱うように特別に調整されていない。
本稿では,大規模言語モデルのための自己モチベーションを用いた木ベースハードアテンションという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-14T00:40:51Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - An Investigation of LLMs' Inefficacy in Understanding Converse Relations [30.94718664430869]
本稿では,知識グラフ補完データセットから抽出した17の関係と1240のトリプルを含む,逆関係に着目した新しいベンチマークであるConvReを紹介する。
我々のConvREは2つのタスク、Re2TextとText2Reを備えており、LLMが関連テキストと関連するテキストのマッチングを判定する能力を評価するために、多選択質問応答として定式化されている。
論文 参考訳(メタデータ) (2023-10-08T13:45:05Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z) - Large Language Models are few(1)-shot Table Reasoners [31.036914270008978]
大規模言語モデル(LLM)は、テキスト推論タスクを解くために、非常に優れた数ショット推論器である。
本稿では,LLMが数発の文脈内学習でテーブルタスクでどれだけうまく機能するかを理解することを目的としている。
論文 参考訳(メタデータ) (2022-10-13T04:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。