論文の概要: Large Language Models are Complex Table Parsers
- arxiv url: http://arxiv.org/abs/2312.11521v1
- Date: Wed, 13 Dec 2023 01:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-31 03:56:16.152443
- Title: Large Language Models are Complex Table Parsers
- Title(参考訳): 大規模言語モデルは複雑なテーブルパーザである
- Authors: Bowen Zhao, Changkai Ji, Yuejie Zhang, Wen He, Yingwen Wang, Qing
Wang, Rui Feng, Xiaobo Zhang
- Abstract要約: 本稿では,複合表QAの課題に対処するため,GPT-3.5を導入することを提案する。
具体的には、各セルの階層構造、位置情報、およびコンテンツをデータセットとしてエンコードする。
本研究では,各タスクの意味の説明的記述によるプロンプトテンプレートの強化により,階層的認識構造能力を効果的に向上する。
- 参考スコア(独自算出の注目度): 26.66460264175336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the Generative Pre-trained Transformer 3.5 (GPT-3.5) exhibiting
remarkable reasoning and comprehension abilities in Natural Language Processing
(NLP), most Question Answering (QA) research has primarily centered around
general QA tasks based on GPT, neglecting the specific challenges posed by
Complex Table QA. In this paper, we propose to incorporate GPT-3.5 to address
such challenges, in which complex tables are reconstructed into tuples and
specific prompt designs are employed for dialogues. Specifically, we encode
each cell's hierarchical structure, position information, and content as a
tuple. By enhancing the prompt template with an explanatory description of the
meaning of each tuple and the logical reasoning process of the task, we
effectively improve the hierarchical structure awareness capability of GPT-3.5
to better parse the complex tables. Extensive experiments and results on
Complex Table QA datasets, i.e., the open-domain dataset HiTAB and the aviation
domain dataset AIT-QA show that our approach significantly outperforms previous
work on both datasets, leading to state-of-the-art (SOTA) performance.
- Abstract(参考訳): Generative Pre-trained Transformer 3.5 (GPT-3.5)は自然言語処理(NLP)において顕著な推論能力と理解能力を示しており、ほとんどの質問応答(QA)研究はGPTに基づく一般的なQAタスクを中心に行われており、複雑な表QAがもたらす課題を無視している。
本稿では,複雑なテーブルをタプルに再構成し,対話に具体的プロンプトデザインを適用するgpt-3.5を提案する。
具体的には,各セルの階層構造,位置情報,内容などをタプルとしてエンコードする。
各タプルの意味とタスクの論理的推論過程を説明的に記述することで、プロンプトテンプレートを強化し、gpt-3.5の階層構造認識能力を効果的に改善し、複雑な表をよりよく解析する。
複合テーブルQAデータセット、すなわち、オープンドメインデータセットHiTABと航空ドメインデータセットAIT-QAの広範な実験と結果から、我々のアプローチは両方のデータセットに対する以前の作業よりも大幅に優れており、SOTA(State-of-the-art)パフォーマンスにつながっていることが分かる。
関連論文リスト
- UniTable: Towards a Unified Framework for Table Structure Recognition
via Self-Supervised Pretraining [25.04573593082671]
テーブル構造認識(TSR)のトレーニングパラダイムとトレーニング目標を一体化するトレーニングフレームワークUniTableを提案する。
本フレームワークは、テーブル構造、セル内容、セル境界ボックス(bbox)を抽出する3つのTSRタスクの学習目標を、タスク非依存の訓練目標である言語モデリングに統一する。
論文 参考訳(メタデータ) (2024-03-07T15:44:50Z) - Beyond Extraction: Contextualising Tabular Data for Efficient
Summarisation by Language Models [0.0]
Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。
本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-04T16:16:14Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning [58.11442663694328]
テーブルプロンプトを生成するための多用途前処理ツールボックスとして,TAP4LLMを提案する。
各モジュールにおいて、様々なシナリオで使用されるいくつかの一般的なメソッドを収集し、設計する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - ReasTAP: Injecting Table Reasoning Skills During Pre-training via
Synthetic Reasoning Examples [15.212332890570869]
複雑なテーブル固有のアーキテクチャ設計を必要とせずに、事前学習中に高レベルのテーブル推論スキルをモデルに注入できることを示すためにReasTAPを開発した。
ReasTAPはすべてのベンチマークで最新のパフォーマンスを実現し、低リソース設定で大幅に改善されている。
論文 参考訳(メタデータ) (2022-10-22T07:04:02Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - TAGPRIME: A Unified Framework for Relational Structure Extraction [71.88926365652034]
TAGPRIMEは、与えられた条件に関する情報を入力テキストに追加するシーケンスタグ付けモデルである。
事前学習された言語モデルにおける自己認識機構により、プライミングワードは、出力された文脈化された表現に、与えられた条件に関するより多くの情報を含む。
5つの異なる言語にまたがる10のデータセットをカバーする3つのタスクに関する大規模な実験と分析は、TAGPRIMEの汎用性と有効性を示している。
論文 参考訳(メタデータ) (2022-05-25T08:57:46Z) - Parameter-Efficient Abstractive Question Answering over Tables or Text [60.86457030988444]
QAシステムを求める情報の長期的な野望は、マルチモーダルなコンテキストを推論し、ユーザクエリに対する自然な回答を生成することである。
メモリ集約型事前学習言語モデルは、構造化されていないテキストや構造化テーブルのような特定のモードでQAデータ上のモデルを微調整することで、QAのような下流タスクに適応する。
パラメータ効率の良いアダプタは、トランス層間の小さなタスク固有のボトルネック層を加算し、訓練する。
論文 参考訳(メタデータ) (2022-04-07T10:56:29Z) - Topic Transferable Table Question Answering [33.54533181098762]
弱教師付きテーブル質問回答(TableQA)モデルは、事前学習されたBERT変換器を用いて質問とテーブルを共同で符号化し、質問のための構造化クエリを生成することにより、最先端のパフォーマンスを実現している。
実用的な設定では、TableQA システムは BERT の事前学習コーパスとは全く異なるトピックと単語の分布を持つテーブルコーパス上に展開される。
我々はT3QA(Topic Transferable Table Question Answering)をTableQAの実用的な適応フレームワークとして提案する。
論文 参考訳(メタデータ) (2021-09-15T15:34:39Z) - HiTab: A Hierarchical Table Dataset for Question Answering and Natural
Language Generation [35.73434495391091]
階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。
この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。
論文 参考訳(メタデータ) (2021-08-15T10:14:21Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Conversational Question Reformulation via Sequence-to-Sequence
Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。
我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。
我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文 参考訳(メタデータ) (2020-04-04T11:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。