論文の概要: NameGuess: Column Name Expansion for Tabular Data
- arxiv url: http://arxiv.org/abs/2310.13196v1
- Date: Thu, 19 Oct 2023 23:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 01:06:30.345889
- Title: NameGuess: Column Name Expansion for Tabular Data
- Title(参考訳): nameguess: 表データのためのカラム名拡張
- Authors: Jiani Zhang, Zhengyuan Shen, Balasubramaniam Srinivasan, Shen Wang,
Huzefa Rangwala, George Karypis
- Abstract要約: 我々は列名を自然言語生成問題として拡張するための新しいタスクであるNameGuessを紹介した。
384K短縮カラムペアのトレーニングデータセットを作成します。
表の内容や列のヘッダー名を条件にすることで、自動回帰言語モデルを強化する。
- 参考スコア(独自算出の注目度): 28.557115822407294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models have revolutionized many sectors,
including the database industry. One common challenge when dealing with large
volumes of tabular data is the pervasive use of abbreviated column names, which
can negatively impact performance on various data search, access, and
understanding tasks. To address this issue, we introduce a new task, called
NameGuess, to expand column names (used in database schema) as a natural
language generation problem. We create a training dataset of 384K
abbreviated-expanded column pairs using a new data fabrication method and a
human-annotated evaluation benchmark that includes 9.2K examples from
real-world tables. To tackle the complexities associated with polysemy and
ambiguity in NameGuess, we enhance auto-regressive language models by
conditioning on table content and column header names -- yielding a fine-tuned
model (with 2.7B parameters) that matches human performance. Furthermore, we
conduct a comprehensive analysis (on multiple LLMs) to validate the
effectiveness of table content in NameGuess and identify promising future
opportunities. Code has been made available at
https://github.com/amazon-science/nameguess.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、データベース産業を含む多くの分野に革命をもたらした。
大量の表データを扱う場合の一般的な課題の1つは、様々なデータ検索、アクセス、理解タスクのパフォーマンスに悪影響を及ぼす可能性のある短縮列名の使用である。
この問題に対処するため,我々は列名(データベーススキーマで使用される)を自然言語生成問題として拡張する,NameGuessと呼ばれる新しいタスクを導入する。
新しいデータ作成法と実世界の表から9.2kの例を含む人間による評価ベンチマークを用いて、384kの省略列ペアのトレーニングデータセットを作成する。
NameGuessのポリセミーと曖昧さに関連する複雑さに対処するため、テーブルの内容と列ヘッダー名を条件にすることで自動回帰言語モデルを強化し、人間のパフォーマンスにマッチする微調整されたモデル(2.7Bパラメータ)を生成する。
さらに,複数の LLM を用いて包括的分析を行い,NameGuess におけるテーブル内容の有効性を検証し,将来的な可能性を明らかにする。
コードはhttps://github.com/amazon-science/nameguessで入手できる。
関連論文リスト
- Enhancing Text-to-SQL Capabilities of Large Language Models via Domain Database Knowledge Injection [23.423794784621368]
大きな言語モデル(LLM)は、スキーマの問題とドメイン固有のデータベース知識の欠如によって、問題に直面します。
本稿では,従来の知識を取り入れたLLMの理解能力を高めるための知識注入手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T09:24:03Z) - WikiTableEdit: A Benchmark for Table Editing by Natural Language
Instruction [56.196512595940334]
本稿では,表編集作業におけるLarge Language Models(LLM)の性能について検討する。
Wikiデータセットから26,531のテーブルを活用し、6つの異なる基本操作のための自然言語命令を生成する。
WikiTableEditデータセット上でいくつかの代表的大規模言語モデルを評価し,その課題を実証する。
論文 参考訳(メタデータ) (2024-03-05T13:33:12Z) - CARTE: Pretraining and Transfer for Tabular Learning [10.155109224816334]
このような対応を必要としないニューラルアーキテクチャを提案する。
結果として、マッチしていないバックグラウンドデータに基づいて事前トレーニングを行うことができる。
ベンチマークでは、CARTEが学習を促進し、ベースラインの堅実なセットを上回ることが示されている。
論文 参考訳(メタデータ) (2024-02-26T18:00:29Z) - Matching Table Metadata with Business Glossaries Using Large Language
Models [18.1687301652456]
データラベルと記述を含むビジネス用語集とテーブルメタデータをマッチングする問題について検討する。
結果として得られるマッチングにより、データコンテンツへのアクセスを要求しなくても、検索および分析に利用可能な、または、キュレートされたビジネス用語集を使用できる。
大規模言語モデル(LLM)のパワーを活用して,手動チューニングを必要としない汎用的なマッチング手法を設計する。
論文 参考訳(メタデータ) (2023-09-08T02:23:59Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Learning to Name Classes for Vision and Language Models [57.0059455405424]
大規模な視覚と言語モデルは、クラス固有のテキストクエリを画像コンテンツにマッピングすることで、印象的なゼロショット認識性能を達成することができる。
視覚的コンテンツの機能として,各クラスに対して最適な単語埋め込みを学習するために,利用可能なデータを活用することを提案する。
凍結したモデルに新しい単語の埋め込みを学習することで、新しいクラスに対してゼロショットの能力を保ち、新しいデータセットにモデルを適応しやすくし、潜在的に誤った、非記述的、曖昧なクラス名を調整することができる。
論文 参考訳(メタデータ) (2023-04-04T14:34:44Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - DBTagger: Multi-Task Learning for Keyword Mapping in NLIDBs Using
Bi-Directional Recurrent Neural Networks [0.2578242050187029]
NLQのPOSタグを利用した新しいディープラーニングに基づく教師付きアプローチを提案する。
8つの異なるデータセットに対するアプローチを評価し、最新の精度結果、平均92.4%$を報告します。
論文 参考訳(メタデータ) (2021-01-11T22:54:39Z) - Semantic Labeling Using a Deep Contextualized Language Model [9.719972529205101]
本研究では,コラム値と文脈の両方を用いた文脈認識型セマンティックラベリング手法を提案する。
我々の新しい手法はセマンティックラベリングの新しい設定に基づいており、ヘッダーを欠いた入力テーブルのラベルを逐次予測する。
我々の知る限りでは、BERTをセマンティックラベリングタスクの解決に成功させたのは、私たちが初めてです。
論文 参考訳(メタデータ) (2020-10-30T03:04:22Z) - Empower Entity Set Expansion via Language Model Probing [58.78909391545238]
既存の拡張方法は、コンテキスト特徴を適応的に選択し、新しいエンティティを抽出することで、シードエンティティをブートストラップする。
エンティティセット拡張の鍵となる課題は、クラスセマンティクスをシフトし、後のイテレーションで累積エラーにつながる曖昧なコンテキスト機能を選択することを避けることである。
セマンティックドリフト問題に対処するために、自動生成されたクラス名を活用する新しい反復的集合拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T00:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。