論文の概要: ReMatch: Retrieval Enhanced Schema Matching with LLMs
- arxiv url: http://arxiv.org/abs/2403.01567v1
- Date: Sun, 3 Mar 2024 17:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:44:35.994378
- Title: ReMatch: Retrieval Enhanced Schema Matching with LLMs
- Title(参考訳): ReMatch: LLMとの検索強化スキーママッチング
- Authors: Eitam Sheetrit, Menachem Brief, Moshik Mishaeli, Oren Elisha
- Abstract要約: 本稿では,検索強化大言語モデル(LLM)を用いたスキーママッチングのためのReMatchという新しい手法を提案する。
提案手法では,事前定義されたマッピングやモデルトレーニング,あるいはソースデータベースのデータへのアクセスが不要になる。
大規模な実世界のスキーマに関する実験結果から、ReMatchはマッチング機能を大幅に改善し、他の機械学習アプローチよりも優れています。
- 参考スコア(独自算出の注目度): 0.9558392439655012
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Schema matching is a crucial task in data integration, involving the
alignment of a source database schema with a target schema to establish
correspondence between their elements. This task is challenging due to textual
and semantic heterogeneity, as well as differences in schema sizes. Although
machine-learning-based solutions have been explored in numerous studies, they
often suffer from low accuracy, require manual mapping of the schemas for model
training, or need access to source schema data which might be unavailable due
to privacy concerns. In this paper we present a novel method, named ReMatch,
for matching schemas using retrieval-enhanced Large Language Models (LLMs). Our
method avoids the need for predefined mapping, any model training, or access to
data in the source database. In the ReMatch method the tables of the target
schema and the attributes of the source schema are first represented as
structured passage-based documents. For each source attribute document, we
retrieve $J$ documents, representing target schema tables, according to their
semantic relevance. Subsequently, we create a prompt for every source table,
comprising all its attributes and their descriptions, alongside all attributes
from the set of top $J$ target tables retrieved previously. We employ LLMs
using this prompt for the matching task, yielding a ranked list of $K$
potential matches for each source attribute. Our experimental results on large
real-world schemas demonstrate that ReMatch significantly improves matching
capabilities and outperforms other machine learning approaches. By eliminating
the requirement for training data, ReMatch becomes a viable solution for
real-world scenarios.
- Abstract(参考訳): データ統合においてスキーママッチングは重要なタスクであり、ソースデータベーススキーマとターゲットスキーマをアライメントすることで、要素間の対応を確立する。
このタスクは、テキストとセマンティックな異質性、およびスキーマサイズの違いによって困難である。
機械学習ベースのソリューションは多くの研究で研究されてきたが、精度が低く、モデルトレーニングのためにスキーマの手動マッピングを必要とする場合や、プライバシ上の懸念から利用できない可能性のあるソーススキーマデータへのアクセスを必要とする場合が多い。
本稿では,検索強調型大規模言語モデル(llms)を用いたスキーママッチングのためのrematchという新しい手法を提案する。
提案手法は,事前定義されたマッピング,モデルトレーニング,あるいはソースデータベースのデータアクセスの必要性を回避する。
rematchメソッドでは、ターゲットスキーマのテーブルとソーススキーマの属性が最初に構造化されたパッセージベースのドキュメントとして表現される。
各ソース属性文書について、それらの意味的関連性に応じて、ターゲットスキーマテーブルを表す$J$ドキュメントを検索する。
その後、すべてのソーステーブルに対してプロンプトを作成し、その属性とその記述と、以前に検索したトップ$J$ターゲットテーブルのセットから得られるすべての属性から構成される。
我々は、このプロンプトをマッチングタスクに使用し、各ソース属性に対して$K$の潜在的なマッチのランクリストを得る。
大規模な実世界のスキーマに関する実験結果から、ReMatchはマッチング機能を大幅に改善し、他の機械学習アプローチよりも優れています。
データトレーニングの要件をなくすことで、ReMatchは現実のシナリオで実行可能なソリューションになります。
関連論文リスト
- List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Entity Matching using Large Language Models [4.94950858749529]
最先端のエンティティマッチング手法は、BERTやRoBERTaのような事前訓練された言語モデル(PLM)に依存している。
エンティティマッチングにおけるこれらのモデルの2つの大きな欠点は、(i)モデルがタスク固有のトレーニングデータを必要とすることと、(ii)微調整されたモデルが、アウト・オブ・ディストリビューション・エンティティに関して堅牢でないことである。
PLMベースのマーカに代えて,よりタスク依存の訓練データとして,生成的大規模言語モデル(LLM)をエンティティマッチングに使用することを検討する。
論文 参考訳(メタデータ) (2023-10-17T13:12:32Z) - Retrieving Texts based on Abstract Descriptions [63.89087805237351]
埋め込みベクトル上の類似性検索は、クエリによる検索を可能にするが、埋め込みに反映される類似性は不定義であり、一貫性がない。
我々は,その内容の抽象的記述に基づいて文を検索する,明確に定義された一貫したタスクを同定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Semantic Enhanced Text-to-SQL Parsing via Iteratively Learning Schema
Linking Graph [6.13728903057727]
新しいデータベースへの一般化性は、人間の発話を insql 文を解析することを目的とした Text-to- システムにとって極めて重要である。
本稿では,質問トークンとデータベーススキーマ間のセマンティックなスキーマリンクグラフを反復的に構築するIS ESLというフレームワークを提案する。
3つのベンチマークでの大規模な実験により、IS ESLはベースラインを一貫して上回り、さらなる調査ではその一般化可能性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-08-08T03:59:33Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - Improving Multi-task Generalization Ability for Neural Text Matching via
Prompt Learning [54.66399120084227]
最近の最先端のニューラルテキストマッチングモデル(PLM)は、様々なタスクに一般化することが難しい。
我々は、特殊化一般化訓練戦略を採用し、それをMatch-Promptと呼ぶ。
特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。
一般化段階において、テキストマッチングモデルは、多種多様なマッチングタスクを訓練することにより、本質的なマッチング信号を探索する。
論文 参考訳(メタデータ) (2022-04-06T11:01:08Z) - It's AI Match: A Two-Step Approach for Schema Matching Using Embeddings [10.732163031244646]
ニューラル埋め込みに基づくスキーママッチングのための新しいエンドツーエンドアプローチを提案する。
以上の結果から,我々の手法は,堅牢かつ信頼性の高い方法で対応を決定可能であることが示唆された。
論文 参考訳(メタデータ) (2022-03-08T19:42:28Z) - Automated Metadata Harmonization Using Entity Resolution & Contextual
Embedding [0.0]
我々は、Cogntive DatabaseのDb2Vec埋め込みアプローチの助けを借りて、このステップの自動化を実演する。
一致したスキーマとは別に、ターゲットデータモデルの正しい存在論的構造も推測できることを実証する。
論文 参考訳(メタデータ) (2020-10-17T02:14:15Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Leveraging Schema Labels to Enhance Dataset Search [20.63182827636973]
本稿では,データセットテーブルの内容に基づいて可能なスキーマラベルを生成する新しいスキーマラベル生成モデルを提案する。
生成したスキーマラベルを混合ランキングモデルに組み込み、クエリとデータセットメタデータの関連性を検討する。
実験により,本手法はデータセット検索タスクの精度とNDCGスコアを効果的に向上できることが示された。
論文 参考訳(メタデータ) (2020-01-27T22:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。