論文の概要: TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2312.09039v2
- Date: Sat, 17 Feb 2024 08:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:09:19.813829
- Title: TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning
- Title(参考訳): tap4llm: 大言語モデル推論のための半構造化データのサンプリング、拡張、パッキングに関するテーブルプロバイダ
- Authors: Yuan Sui, Jiaru Zou, Mengyu Zhou, Xinyi He, Lun Du, Shi Han, Dongmei
Zhang
- Abstract要約: テーブルプロンプトを生成するための多用途前処理ツールボックスとして,TAP4LLMを提案する。
各モジュールにおいて、様々なシナリオで使用されるいくつかの一般的なメソッドを収集し、設計する。
- 参考スコア(独自算出の注目度): 58.11442663694328
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Table-based reasoning has shown remarkable progress in combining deep models
with discrete reasoning, which requires reasoning over both free-form natural
language (NL) questions and semi-structured tabular data. However, previous
table reasoning solutions only consider small-sized tables and exhibit
limitations in handling larger tables. In addition, most existing methods
struggle to reason over complex questions since they lack essential information
or they are scattered in different places. To alleviate these challenges, we
propose TAP4LLM as a versatile pre-processing toolbox to generate table prompts
through (1) table sampling, (2) table augmentation, and (3) table packing while
balancing the token allocation trade-off. In each module, we collect and design
several common methods for usage in various scenarios (e.g., speed over
accuracy). We also provide a comprehensive evaluation on performance of each
components inside TAP4LLM and show that our method improves LLMs' reasoning
capabilities in various tabular tasks and enhances the interaction between LLMs
and tabular data by employing effective pre-processing.
- Abstract(参考訳): 表に基づく推論は、深層モデルと離散的推論の組み合わせにおいて顕著な進歩を示しており、これは自由形式自然言語(NL)問題と半構造化表データの両方を推論する必要がある。
しかし、従来のテーブル推論ソリューションは、小さなテーブルのみを考慮し、より大きなテーブルを扱う際の制限を示す。
さらに、既存のほとんどの手法は、重要な情報がない、あるいは異なる場所に散らばっているため、複雑な問題を理解するのに苦労している。
これらの課題を解決するために,(1)テーブルサンプリング,(2)テーブル拡張,(3)テーブルパッキングを通じてテーブルプロンプトを生成するために,トークン割り当てトレードオフのバランスをとりながら,汎用的な事前処理ツールボックスとしてTAP4LLMを提案する。
各モジュールでは、様々なシナリオ(例えば、精度よりも速度)で使用するいくつかの一般的なメソッドを収集し、設計する。
また,TAP4LLM内の各コンポーネントの性能を総合的に評価し,各タスクにおけるLCMの推論能力の向上と,効率的な事前処理によるLCMと表データ間の相互作用の向上を示す。
関連論文リスト
- TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - ALTER: Augmentation for Large-Table-Based Reasoning [5.164923314261229]
ALTER(Augmentation for Large-Table-Based Reasoning)は、NL (Free-form Natural Language) とNL (Augmentation for Large-Table-Based Reasoning) の双方の質問において、潜在的な拡張可能性を活用するために設計されたフレームワークである。
テーブルからの関連データの小さなサブセットのみを利用することで、ALTERはテーブルベースの推論ベンチマークで優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-03T12:34:45Z) - AnnotatedTables: A Large Tabular Dataset with Language Model Annotations [8.602181445598776]
本稿では,多種多様な表データのアノテーションを機械学習で自動生成する方法を示す。
LLM生成アノテーションを備えた32,119のデータベースのコレクションであるAnnotatedTablesをリリースしました。
LLMによって同定された入力ターゲット列を持つ2,720のテーブル上で,ベイジアン事前訓練を行った最近のニューラルネットワーク分類器であるTabPFNの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-24T06:44:14Z) - HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies [9.09415727445941]
本稿では,この課題に対する潜在的な解決法として,HiddenTablesと呼ばれる協調ゲームを提案する。
エージェントがテーブルQAタスクを解く能力を評価するコード生成「r」と「Oracleウィンドウ」の間で「HiddenTables」が再生される。
複雑なクエリを一般化および実行できないLCMの集合性を実証する多種多様なテーブルの集合について明らかな実験を行う。
論文 参考訳(メタデータ) (2024-06-16T04:53:29Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Large Language Model for Table Processing: A Survey [18.32332372134988]
本調査では,テーブル関連タスクの概要について概観する。
テーブル質問応答やスプレッドシート操作やテーブルデータ分析といった新しいフィールドなど、従来のタスクをカバーしています。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。