Fugu-MT 論文翻訳(概要): GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study

論文の概要: GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study

arxiv url: http://arxiv.org/abs/2305.13062v3
Date: Wed, 15 Nov 2023 12:18:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 20:23:29.856571
Title: GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study
Title（参考訳）: GPT4Table: 大規模言語モデルは構造化テーブルデータに耐えられるか? ベンチマークと実証的研究
Authors: Yuan Sui, Mengyu Zhou, Mingjie Zhou, Shi Han, Dongmei Zhang
Abstract要約: 大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。本稿では,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計し,これを理解しようと試みる。その結果、テーブル入力形式、コンテンツ順序、ロールプロンプト、パーティションマークなど、いくつかの入力選択によって性能が変化していることが判明した。
参考スコア（独自算出の注目度）: 47.6239689986714
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are becoming attractive as few-shot reasoners to solve Natural Language (NL)-related tasks. However, there is still much to learn about how well LLMs understand structured data, such as tables. While it is true that tables can be used as inputs to LLMs with serialization, there is a lack of comprehensive studies examining whether LLMs can truly comprehend such data. In this paper, we try to understand this by designing a benchmark to evaluate the structural understanding capabilities (SUC) of LLMs. The benchmark we create includes seven tasks, each with its own unique challenges, \eg, cell lookup, row retrieval, and size detection. We conduct a series of evaluations on GPT-3.5 and GPT-4. We find that the performance varied depending on several input choices, including table input format, content order, role prompting, and partition marks. Drawing from the insights gained through the benchmark evaluations, we propose \textit{self-augmentation} for effective structural prompting, such as critical value / range identification using LLMs' internal knowledge. When combined with carefully chosen input choices, these structural prompting methods lead to promising improvements in LLM performance on a variety of tabular tasks, \eg, TabFact($\uparrow2.31\%$), HybridQA($\uparrow2.13\%$), SQA($\uparrow2.72\%$), Feverous($\uparrow0.84\%$), and ToTTo($\uparrow5.68\%$). We believe that our benchmark and proposed prompting methods can serve as a simple yet generic selection for future research.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になりつつある。しかし、LLMがテーブルのような構造化データをどのように理解しているかは、まだ学ぶべきことがたくさんある。表を直列化して LLM への入力として用いることは事実であるが, それらのデータを真に理解できるかどうかを総合的に検討する研究は乏しい。本稿では,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計し,これを理解しようと試みる。私たちが作成したベンチマークには7つのタスクが含まれており、それぞれに独自の課題、例えば、セルルックアップ、行検索、サイズ検出があります。 GPT-3.5とGPT-4について一連の評価を行った。その結果,テーブル入力形式,コンテンツ順序,ロールプロンプト,パーティションマークなど,複数の入力選択によって性能が変化した。評価の結果から,LLMの内部知識を用いた臨界値/範囲識別などの効果的な構造的プロンプトのための「textit{self-augmentation}」を提案する。注意深く選択された入力選択と組み合わせると、これらの構造的プロンプト手法は、様々な表型タスクにおけるllmパフォーマンスの有望な改善をもたらす: \eg, tabfact($\uparrow2.31\%$), hybridqa($\uparrow2.13\%$), sqa($\uparrow2.72\%$), feverous($\uparrow0.84\%$), totto($\uparrow5.68\%$)。我々は,我々のベンチマークと提案手法が,将来の研究の単純かつ汎用的な選択に役立つと考えている。

関連論文リスト

Language Model Representations for Efficient Few-Shot Tabular Classification [17.63549220100997]
大規模言語モデル(LLM)はセマンティック検索のようなタスクにおいて、Webインフラストラクチャのますます統合的なコンポーネントになりつつある。本稿では、$textbfTa$ble $textbfR$epresentation with $textbfL$anguage Modelという軽量パラダイムを調査します。提案手法は,低データ方式の最先端モデルに匹敵する性能を実現する。
論文参考訳（メタデータ） (2026-01-21T23:28:51Z)
A Hybrid Search for Complex Table Question Answering in Securities Report [0.9430947207126281]
手動による識別を伴わないTQA(Table Question Answering)のためのセル抽出法を提案する。提案手法は,与えられた質問と個々のセルの類似性を計算し,テーブルヘッダーを推定する。次に、最も関連する行と列の交点にあるセルの答えとして選択する。
論文参考訳（メタデータ） (2025-11-12T10:19:27Z)
Are Prompts All You Need? Evaluating Prompt-Based Large Language Models (LLM)s for Software Requirements Classification [1.1458853556386799]
本研究は,プロンプトベースの大規模言語モデルがデータニーズを低減できるかどうかを検証する。 PMISEとSecReqという2つの英語データセット上で、複数のタスクにまたがる複数のモデルとスタイルをベンチマークする。
論文参考訳（メタデータ） (2025-09-17T09:58:26Z)
Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [28.47810405584841]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models [92.92512796044471]
本稿では,Large Language Models (LLMs) を用いた教師なし単語セグメンテーションの限界を探索する新しいフレームワークを提案する。我々は,LLMの「理解」を評価するために,複数の言語にまたがる単語セグメンテーションを行うために,現在主流のLLMを使用している。本研究では,文脈情報に基づく動的$n$-gramモデルの構築を可能にする,LACAと呼ばれる新しい教師なし手法を提案する。
論文参考訳（メタデータ） (2025-05-26T07:48:15Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
Semantic Captioning: Benchmark Dataset and Graph-Aware Few-Shot In-Context Learning for SQL2Text [3.4688186440441893]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を示した。逆のプロセスは、コードを自然言語に翻訳し、セマンティックキャプションと呼ばれるが、あまり注目されていない。本稿では,クエリの理解と説明に関する重要なニーズに対処するため,2Textのキャプションに着目した。
論文参考訳（メタデータ） (2025-01-06T17:36:09Z)
Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。 LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文参考訳（メタデータ） (2024-10-30T17:02:54Z)
From Natural Language to SQL: Review of LLM-based Text-to-SQL Systems [1.1060425537315088]
この調査は、LLMベースのテキスト・ツー・スカルシステムの進化に関する包括的研究を提供する。ベンチマーク、評価方法、評価指標について議論する。効率性、モデルプライバシ、データプライバシといった重要な課題を、その開発と潜在的な領域の改善の観点から強調する。
論文参考訳（メタデータ） (2024-10-01T20:46:25Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
AnnotatedTables: A Large Tabular Dataset with Language Model Annotations [8.602181445598776]
本稿では,多種多様な表データのアノテーションを機械学習で自動生成する方法を示す。 LLM生成アノテーションを備えた32,119のデータベースのコレクションであるAnnotatedTablesをリリースしました。 LLMによって同定された入力ターゲット列を持つ2,720のテーブル上で,ベイジアン事前訓練を行った最近のニューラルネットワーク分類器であるTabPFNの性能評価を行った。
論文参考訳（メタデータ） (2024-06-24T06:44:14Z)
TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。 TableLLMはデータ操作タスクを巧みに扱うために構築されている。我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文参考訳（メタデータ） (2024-03-28T11:21:12Z)
Call Me When Necessary: LLMs can Efficiently and Faithfully Reason over Structured Environments [40.95811668230818]
本稿では,構造化環境に対する効率的な推論を行うために,Reasoning-Path-Editing (Readi)を提案する。 Readiはクエリが与えられた推論パスを生成し、必要なときにのみそのパスを編集する。 3つのKGQAデータセットと2つのTableQAデータセットの実験結果から、Readiの有効性が示された。
論文参考訳（メタデータ） (2024-03-13T14:59:07Z)
Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。 LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。ゼロショット学習よりもパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-12T17:17:27Z)
You can't pick your neighbors, or can you? When and how to rely on retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文参考訳（メタデータ） (2022-10-28T02:57:40Z)
Large Language Models are few(1)-shot Table Reasoners [31.036914270008978]
大規模言語モデル(LLM)は、テキスト推論タスクを解くために、非常に優れた数ショット推論器である。本稿では,LLMが数発の文脈内学習でテーブルタスクでどれだけうまく機能するかを理解することを目的としている。
論文参考訳（メタデータ） (2022-10-13T04:08:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。