論文の概要: TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2312.09039v1
- Date: Thu, 14 Dec 2023 15:37:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:27:47.660106
- Title: TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning
- Title(参考訳): tap4llm: 大言語モデル推論のための半構造化データのサンプリング、拡張、パッキングに関するテーブルプロバイダ
- Authors: Yuan Sui, Jiaru Zou, Mengyu Zhou, Xinyi He, Lun Du, Shi Han, Dongmei
Zhang
- Abstract要約: テーブルプロバイダであるTAP4LLMを用いて,効率的な半構造化データ推論を実現する。
我々は,TAP4LLMがプラグインとして異なるコンポーネントを可能にすることを示し,多様なタスクにおける構造化データに対するLLMの理解を高めた。
- 参考スコア(独自算出の注目度): 58.11442663694328
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Table reasoning has shown remarkable progress in a wide range of table-based
tasks. These challenging tasks require reasoning over both free-form natural
language (NL) questions and semi-structured tabular data. However, previous
table reasoning solutions suffer from significant performance degradation on
"huge" tables. In addition, most existing methods struggle to reason over
complex questions since they lack essential information or they are scattered
in different places. To alleviate these challenges, we exploit a table
provider, namely TAP4LLM, on versatile sampling, augmentation, and packing
methods to achieve effective semi-structured data reasoning using large
language models (LLMs), which 1) decompose raw tables into sub-tables with
specific rows or columns based on the rules or semantic similarity; 2) augment
table information by extracting semantic and statistical metadata from raw
tables while retrieving relevant knowledge from trustworthy knowledge sources
(e.g., Wolfram Alpha, Wikipedia); 3) pack sampled tables with augmented
knowledge into sequence prompts for LLMs reasoning while balancing the token
allocation trade-off. We show that TAP4LLM allows for different components as
plug-ins, enhancing LLMs' understanding of structured data in diverse tabular
tasks.
- Abstract(参考訳): テーブル推論は、幅広いテーブルベースのタスクで著しく進歩している。
これらの困難なタスクは、自由形式自然言語(NL)質問と半構造化表データの両方を推論する必要がある。
しかし、以前の表推論ソリューションは、"huge"テーブルのパフォーマンスが著しく低下する。
さらに、既存のほとんどの手法は、重要な情報がない、あるいは異なる場所に散らばっているため、複雑な問題を理解するのに苦労している。
これらの課題を緩和するために,多用途なサンプリング,拡張,パッキングの手法であるtap4llmを利用して,大規模言語モデル(llm)を用いた効果的な半構造化データ推論を実現する。
1) 規則又は意味的類似性に基づいて,原表を特定の行又は列でサブテーブルに分解する。
2) 信頼に値する知識ソース(例えば、Wolfram Alpha, Wikipedia)から関連知識を取得しつつ、生の表から意味的・統計的メタデータを抽出し、テーブル情報を強化する。
3) トークン割り当てトレードオフのバランスを保ちながら、サンプルテーブルを拡張知識でLCMの推論のシーケンスプロンプトに詰め込む。
我々は,TAP4LLMがプラグインとして異なるコンポーネントを可能にすることを示し,多様な表処理における構造化データに対するLLMsの理解を高めた。
関連論文リスト
- TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - ALTER: Augmentation for Large-Table-Based Reasoning [5.164923314261229]
ALTER(Augmentation for Large-Table-Based Reasoning)は、NL (Free-form Natural Language) とNL (Augmentation for Large-Table-Based Reasoning) の双方の質問において、潜在的な拡張可能性を活用するために設計されたフレームワークである。
テーブルからの関連データの小さなサブセットのみを利用することで、ALTERはテーブルベースの推論ベンチマークで優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-03T12:34:45Z) - AnnotatedTables: A Large Tabular Dataset with Language Model Annotations [8.602181445598776]
本稿では,多種多様な表データのアノテーションを機械学習で自動生成する方法を示す。
LLM生成アノテーションを備えた32,119のデータベースのコレクションであるAnnotatedTablesをリリースしました。
LLMによって同定された入力ターゲット列を持つ2,720のテーブル上で,ベイジアン事前訓練を行った最近のニューラルネットワーク分類器であるTabPFNの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-24T06:44:14Z) - HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies [9.09415727445941]
本稿では,この課題に対する潜在的な解決法として,HiddenTablesと呼ばれる協調ゲームを提案する。
エージェントがテーブルQAタスクを解く能力を評価するコード生成「r」と「Oracleウィンドウ」の間で「HiddenTables」が再生される。
複雑なクエリを一般化および実行できないLCMの集合性を実証する多種多様なテーブルの集合について明らかな実験を行う。
論文 参考訳(メタデータ) (2024-06-16T04:53:29Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Large Language Model for Table Processing: A Survey [18.32332372134988]
本調査では,テーブル関連タスクの概要について概観する。
テーブル質問応答やスプレッドシート操作やテーブルデータ分析といった新しいフィールドなど、従来のタスクをカバーしています。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。