論文の概要: Matching Table Metadata with Business Glossaries Using Large Language
Models
- arxiv url: http://arxiv.org/abs/2309.11506v1
- Date: Fri, 8 Sep 2023 02:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-24 03:54:21.351364
- Title: Matching Table Metadata with Business Glossaries Using Large Language
Models
- Title(参考訳): 大規模言語モデルを用いた表メタデータとビジネス用語のマッチング
- Authors: Elita Lobo, Oktie Hassanzadeh, Nhan Pham, Nandana Mihindukulasooriya,
Dharmashankar Subramanian, Horst Samulowitz
- Abstract要約: データラベルと記述を含むビジネス用語集とテーブルメタデータをマッチングする問題について検討する。
結果として得られるマッチングにより、データコンテンツへのアクセスを要求しなくても、検索および分析に利用可能な、または、キュレートされたビジネス用語集を使用できる。
大規模言語モデル(LLM)のパワーを活用して,手動チューニングを必要としない汎用的なマッチング手法を設計する。
- 参考スコア(独自算出の注目度): 18.1687301652456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enterprises often own large collections of structured data in the form of
large databases or an enterprise data lake. Such data collections come with
limited metadata and strict access policies that could limit access to the data
contents and, therefore, limit the application of classic retrieval and
analysis solutions. As a result, there is a need for solutions that can
effectively utilize the available metadata. In this paper, we study the problem
of matching table metadata to a business glossary containing data labels and
descriptions. The resulting matching enables the use of an available or curated
business glossary for retrieval and analysis without or before requesting
access to the data contents. One solution to this problem is to use
manually-defined rules or similarity measures on column names and glossary
descriptions (or their vector embeddings) to find the closest match. However,
such approaches need to be tuned through manual labeling and cannot handle many
business glossaries that contain a combination of simple as well as complex and
long descriptions. In this work, we leverage the power of large language models
(LLMs) to design generic matching methods that do not require manual tuning and
can identify complex relations between column names and glossaries. We propose
methods that utilize LLMs in two ways: a) by generating additional context for
column names that can aid with matching b) by using LLMs to directly infer if
there is a relation between column names and glossary descriptions. Our
preliminary experimental results show the effectiveness of our proposed
methods.
- Abstract(参考訳): エンタープライズはしばしば、大きなデータベースやエンタープライズデータレイクという形で構造化されたデータの大規模なコレクションを所有します。
このようなデータコレクションには、制限されたメタデータと厳格なアクセスポリシが付属しており、データコンテンツへのアクセスを制限できるため、古典的な検索および分析ソリューションの適用が制限される。
結果として、利用可能なメタデータを効果的に活用できるソリューションが必要である。
本稿では,データラベルと記述を含むビジネス用語集とテーブルメタデータをマッチングする問題について検討する。
結果として得られるマッチングにより、データコンテンツへのアクセスを要求しなくても、検索および分析に利用可能な、または、キュレートされたビジネス用語集を使用できる。
この問題に対する1つの解決策は、最も近い一致を見つけるために、列名と用語集記述(またはそれらのベクトル埋め込み)に手作業で定義された規則や類似性尺度を使用することである。
しかし、このようなアプローチは手動のラベル付けによって調整される必要があり、単純で複雑な記述と長い記述の組み合わせを含む多くのビジネス用語集を扱うことができない。
本研究では,大規模言語モデル(LLM)の力を利用して,手動チューニングを必要としない汎用的なマッチング手法を設計し,列名と用語集の複雑な関係を同定する。
LLMを2つの方法で利用する手法を提案する。
a) マッチングを支援するカラム名の追加コンテキストを生成することにより
b) LLMを用いて,列名と用語的記述の間に関係があるかどうかを直接推測することにより
予備実験の結果,提案手法の有効性が示された。
関連論文リスト
- Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - RoundTable: Leveraging Dynamic Schema and Contextual Autocomplete for Enhanced Query Precision in Tabular Question Answering [11.214912072391108]
現実世界のデータセットは、大きな属性と複雑な値の配列を特徴とすることが多い。
従来の手法ではデータセットのサイズと複雑さをLarge Language Modelsに完全にリレーすることはできません。
入力テーブル上でFTS(Full-Text Search)を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T13:13:06Z) - Schema Matching with Large Language Models: an Experimental Study [0.580553237364985]
本稿では,市販のLarge Language Models (LLM) を用いてスキーママッチングを行う。
本研究の目的は,2つの関係スキーマの要素間の意味的対応を名前と記述のみを用いて識別することである。
論文 参考訳(メタデータ) (2024-07-16T15:33:00Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Text-like Encoding of Collaborative Information in Large Language Models for Recommendation [58.87865271693269]
BinLLMはLarge Language Models for Recommendation (LLMRec)とシームレスに連携する新しい手法である。
BinLLMは、外部モデルからの協調的な埋め込みをバイナリシーケンスに変換する。
BinLLMは、ドット決定記法を用いてバイナリシーケンスを圧縮するオプションを提供し、過度に長い長さを避ける。
論文 参考訳(メタデータ) (2024-06-05T12:45:25Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - CARTE: Pretraining and Transfer for Tabular Learning [10.155109224816334]
このような対応を必要としないニューラルアーキテクチャを提案する。
結果として、マッチしていないバックグラウンドデータに基づいて事前トレーニングを行うことができる。
ベンチマークでは、CARTEが学習を促進し、ベースラインの堅実なセットを上回ることが示されている。
論文 参考訳(メタデータ) (2024-02-26T18:00:29Z) - Matching of Descriptive Labels to Glossary Descriptions [4.030805205247758]
本稿では,既存の意味テキスト類似度測定(STS)を活用し,セマンティックラベルの強化と集合的文脈化を用いて拡張するフレームワークを提案する。
公開データソースから得られた2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-10-27T07:09:04Z) - NameGuess: Column Name Expansion for Tabular Data [28.557115822407294]
我々は列名を自然言語生成問題として拡張するための新しいタスクであるNameGuessを紹介した。
384K短縮カラムペアのトレーニングデータセットを作成します。
表の内容や列のヘッダー名を条件にすることで、自動回帰言語モデルを強化する。
論文 参考訳(メタデータ) (2023-10-19T23:11:37Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。