論文の概要: Bridging the Gap: Deciphering Tabular Data Using Large Language Model
- arxiv url: http://arxiv.org/abs/2308.11891v2
- Date: Mon, 28 Aug 2023 14:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 20:47:52.978592
- Title: Bridging the Gap: Deciphering Tabular Data Using Large Language Model
- Title(参考訳): ギャップのブリッジ:大言語モデルを用いた語彙データの解読
- Authors: Hengyuan Zhang, Peng Chang, Zongcheng Ji
- Abstract要約: この研究は、テーブルベースの質問応答タスクへの大規模言語モデルの初めての応用である。
拡張言語モデルとのシームレスな統合のために,テーブルのシリアライズに特有なモジュールを設計しました。
- 参考スコア(独自算出の注目度): 4.711941969101732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of natural language processing, the understanding of tabular
data has perpetually stood as a focal point of scholarly inquiry. The emergence
of expansive language models, exemplified by the likes of ChatGPT, has ushered
in a wave of endeavors wherein researchers aim to harness these models for
tasks related to table-based question answering. Central to our investigative
pursuits is the elucidation of methodologies that amplify the aptitude of such
large language models in discerning both the structural intricacies and
inherent content of tables, ultimately facilitating their capacity to provide
informed responses to pertinent queries. To this end, we have architected a
distinctive module dedicated to the serialization of tables for seamless
integration with expansive language models. Additionally, we've instituted a
corrective mechanism within the model to rectify potential inaccuracies.
Experimental results indicate that, although our proposed method trails the
SOTA by approximately 11.7% in overall metrics, it surpasses the SOTA by about
1.2% in tests on specific datasets. This research marks the first application
of large language models to table-based question answering tasks, enhancing the
model's comprehension of both table structures and content.
- Abstract(参考訳): 自然言語処理の領域では、表形式のデータの理解は学術的な調査の焦点として永久に立っていた。
ChatGPTなどによって実証された拡張言語モデルの出現は、研究者がテーブルベースの質問応答に関連するタスクにこれらのモデルを活用しようとする努力の波を巻き起こしている。
私たちの調査的追求の中心は、このような大きな言語モデルの適性を増幅し、表の構造的複雑さと固有の内容の両方を識別し、最終的には関連するクエリにインフォームドレスポンスを提供する能力を促進する方法論の解明です。
この目的のために,拡張言語モデルとのシームレスな統合を目的としたテーブルのシリアライゼーション専用のモジュールを設計した。
さらに,モデル内で潜在的な不正確性を正すための修正機構を考案した。
実験結果から,提案手法はSOTAを約11.7%追従するが,特定のデータセットに対するテストでは約1.2%のSOTAを超えることがわかった。
本研究は,大規模言語モデルを表型質問応答タスクに適用し,表構造と内容の理解を深めた最初の事例である。
関連論文リスト
- Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。
予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。
表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文 参考訳(メタデータ) (2024-10-04T16:26:12Z) - Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution [7.681258910515419]
タブラルデータは、その異種の性質と複雑な構造的関係により、固有の課題を示す。
表型データ解析における高い予測性能とロバスト性は、多くのアプリケーションにとって大きな可能性を秘めている。
GPTやLLaMAといった最近の大規模言語モデルの出現はこの分野にさらなる革命をもたらし、最小限の微調整でより高度で多様なアプリケーションを容易にした。
論文 参考訳(メタデータ) (2024-08-20T04:59:19Z) - Facts-and-Feelings: Capturing both Objectivity and Subjectivity in Table-to-Text Generation [41.09752906121257]
私たちは3849のデータインスタンスを持つTa2TSデータセットを紹介します。
本稿では,線形化テーブル上でのシーケンス・ツー・シーケンスの微調整と,一般的な大言語モデルへのプロンプトを行う。
論文 参考訳(メタデータ) (2024-06-15T08:41:44Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - Expanding the Vocabulary of BERT for Knowledge Base Construction [6.412048788884728]
国際セマンティックウェブ会議2023で「事前学習言語モデルによる知識ベース構築」の課題が開催された。
私たちの焦点は、パラメータを最大10億に制限する課題のトラック1にありました。
本稿では,知識ベース構築のための語彙拡張BERTを提案する。
論文 参考訳(メタデータ) (2023-10-12T12:52:46Z) - Reimagining Retrieval Augmented Language Models for Answering Queries [23.373952699385427]
本稿では,大規模言語モデルに対する現実性チェックと,比較対象言語モデル検索の可能性を検証する。
このような言語モデルは半パラメトリックであり、モデルがモデルパラメータと外部データソースからの知識を統合して予測を行う。
論文 参考訳(メタデータ) (2023-06-01T18:08:51Z) - Towards Table-to-Text Generation with Pretrained Language Model: A Table
Structure Understanding and Text Deliberating Approach [60.03002572791552]
本稿では,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。
具体的には,表構造を考慮したテキスト生成モデルを実現するために,三層多層アテンションネットワークを考案する。
われわれのアプローチは、様々な種類のテーブルに対して忠実で流動的な記述テキストを生成することができる。
論文 参考訳(メタデータ) (2023-01-05T14:03:26Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。