論文の概要: TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2312.09039v1
- Date: Thu, 14 Dec 2023 15:37:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:27:47.660106
- Title: TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning
- Title(参考訳): tap4llm: 大言語モデル推論のための半構造化データのサンプリング、拡張、パッキングに関するテーブルプロバイダ
- Authors: Yuan Sui, Jiaru Zou, Mengyu Zhou, Xinyi He, Lun Du, Shi Han, Dongmei
Zhang
- Abstract要約: テーブルプロバイダであるTAP4LLMを用いて,効率的な半構造化データ推論を実現する。
我々は,TAP4LLMがプラグインとして異なるコンポーネントを可能にすることを示し,多様なタスクにおける構造化データに対するLLMの理解を高めた。
- 参考スコア(独自算出の注目度): 58.11442663694328
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Table reasoning has shown remarkable progress in a wide range of table-based
tasks. These challenging tasks require reasoning over both free-form natural
language (NL) questions and semi-structured tabular data. However, previous
table reasoning solutions suffer from significant performance degradation on
"huge" tables. In addition, most existing methods struggle to reason over
complex questions since they lack essential information or they are scattered
in different places. To alleviate these challenges, we exploit a table
provider, namely TAP4LLM, on versatile sampling, augmentation, and packing
methods to achieve effective semi-structured data reasoning using large
language models (LLMs), which 1) decompose raw tables into sub-tables with
specific rows or columns based on the rules or semantic similarity; 2) augment
table information by extracting semantic and statistical metadata from raw
tables while retrieving relevant knowledge from trustworthy knowledge sources
(e.g., Wolfram Alpha, Wikipedia); 3) pack sampled tables with augmented
knowledge into sequence prompts for LLMs reasoning while balancing the token
allocation trade-off. We show that TAP4LLM allows for different components as
plug-ins, enhancing LLMs' understanding of structured data in diverse tabular
tasks.
- Abstract(参考訳): テーブル推論は、幅広いテーブルベースのタスクで著しく進歩している。
これらの困難なタスクは、自由形式自然言語(NL)質問と半構造化表データの両方を推論する必要がある。
しかし、以前の表推論ソリューションは、"huge"テーブルのパフォーマンスが著しく低下する。
さらに、既存のほとんどの手法は、重要な情報がない、あるいは異なる場所に散らばっているため、複雑な問題を理解するのに苦労している。
これらの課題を緩和するために,多用途なサンプリング,拡張,パッキングの手法であるtap4llmを利用して,大規模言語モデル(llm)を用いた効果的な半構造化データ推論を実現する。
1) 規則又は意味的類似性に基づいて,原表を特定の行又は列でサブテーブルに分解する。
2) 信頼に値する知識ソース(例えば、Wolfram Alpha, Wikipedia)から関連知識を取得しつつ、生の表から意味的・統計的メタデータを抽出し、テーブル情報を強化する。
3) トークン割り当てトレードオフのバランスを保ちながら、サンプルテーブルを拡張知識でLCMの推論のシーケンスプロンプトに詰め込む。
我々は,TAP4LLMがプラグインとして異なるコンポーネントを可能にすることを示し,多様な表処理における構造化データに対するLLMsの理解を高めた。
関連論文リスト
- QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - Large Language Model for Table Processing: A Survey [9.144614058716083]
大規模言語モデル (LLMs) は、学術や産業から大きな利益を得る。
テーブルは通常2次元で、大量のデータを格納するために構成され、データベースクエリやスプレッドシート計算、Webテーブルからのレポート生成といった日々のアクティビティに不可欠である。
この調査は、テーブル質問応答(Table QA)や事実検証といった従来の領域だけでなく、テーブル操作や高度なテーブルデータ分析といった、新たに強調された側面を含む、テーブルタスクの広範な概要を提供する。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - Chain-of-Table: Evolving Tables in the Reasoning Chain for Table
Understanding [79.9461269253121]
そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。
Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-09T07:46:26Z) - TDeLTA: A Light-weight and Robust Table Detection Method based on
Learning Text Arrangement [34.73880086005418]
本稿では,学習テキストアレンジメント(TDeLTA)に基づく新しい,軽量で堅牢なテーブル検出手法を提案する。
表を正確に特定するために,表内の意味的役割に応じてテキストブロックを4つのカテゴリに分類するテキスト分類タスクを設計する。
いくつかの最先端の手法と比較して、TDeLTAは大規模な公開データセットの3.1Mモデルパラメータで競合する結果を得る。
論文 参考訳(メタデータ) (2023-12-18T09:18:43Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - Large Language Models are Versatile Decomposers: Decompose Evidence and
Questions for Table-based Reasoning [45.013230888670435]
大規模言語モデル(LLM)を効率的なテーブルベースの推論のためのデコンパイラとして活用する。
巨大な証拠(巨大な表)をサブエビデンス(小さな表)に分解し、無駄な情報の干渉を軽減する。
我々は,思考連鎖のジレンマを軽減するために,「パーシング・エグゼクティオン・フィリング」戦略を提案する。
論文 参考訳(メタデータ) (2023-01-31T17:51:45Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。