論文の概要: Schema Matching with Large Language Models: an Experimental Study
- arxiv url: http://arxiv.org/abs/2407.11852v1
- Date: Tue, 16 Jul 2024 15:33:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 14:13:22.127894
- Title: Schema Matching with Large Language Models: an Experimental Study
- Title(参考訳): 大規模言語モデルとスキーママッチング:実験的検討
- Authors: Marcel Parciak, Brecht Vandevoort, Frank Neven, Liesbet M. Peeters, Stijn Vansummeren,
- Abstract要約: 本稿では,市販のLarge Language Models (LLM) を用いてスキーママッチングを行う。
本研究の目的は,2つの関係スキーマの要素間の意味的対応を名前と記述のみを用いて識別することである。
- 参考スコア(独自算出の注目度): 0.580553237364985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown useful applications in a variety of tasks, including data wrangling. In this paper, we investigate the use of an off-the-shelf LLM for schema matching. Our objective is to identify semantic correspondences between elements of two relational schemas using only names and descriptions. Using a newly created benchmark from the health domain, we propose different so-called task scopes. These are methods for prompting the LLM to do schema matching, which vary in the amount of context information contained in the prompt. Using these task scopes we compare LLM-based schema matching against a string similarity baseline, investigating matching quality, verification effort, decisiveness, and complementarity of the approaches. We find that matching quality suffers from a lack of context information, but also from providing too much context information. In general, using newer LLM versions increases decisiveness. We identify task scopes that have acceptable verification effort and succeed in identifying a significant number of true semantic matches. Our study shows that LLMs have potential in bootstrapping the schema matching process and are able to assist data engineers in speeding up this task solely based on schema element names and descriptions without the need for data instances.
- Abstract(参考訳): 大規模言語モデル(LLM)は、データラングリングを含む様々なタスクにおいて有用なアプリケーションを示している。
本稿では,既製のLCMを用いてスキーママッチングを行う。
本研究の目的は,2つの関係スキーマの要素間の意味的対応を名前と記述のみを用いて識別することである。
健康領域から新たに作成されたベンチマークを用いて、タスクスコープを別々に提案する。
これらはLLMがスキーママッチングを行うように促す方法であり、プロンプトに含まれるコンテキスト情報の量によって異なる。
これらのタスクスコープを用いて、LLMベースのスキーママッチングを文字列類似性ベースラインと比較し、マッチングの品質、検証の取り組み、決定性、アプローチの相補性について検討する。
マッチングの品質は、コンテキスト情報の欠如だけでなく、コンテキスト情報の過剰な提供にも悩まされることに気付きました。
一般に、より新しいLCMバージョンを使用することで決定性が向上する。
検証作業が許容できるタスクの範囲を特定し,真のセマンティックマッチのかなりの数を特定することに成功している。
我々の研究は、LCMがスキーママッチングプロセスのブートストラップを行う可能性があり、データインスタンスを必要とせずにスキーマ要素名や記述のみに基づいて、このタスクをスピードアップするデータエンジニアを支援することができることを示している。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Assessing SPARQL capabilities of Large Language Models [0.0]
我々は、SPARQLで動作するLarge Language Modelsのアウトオブザボックス機能の測定に重点を置いています。
LLM-KG-Benchフレームワークにベンチマークタスクを実装し,自動実行と評価を行う。
この結果から,SPARQL SELECTクエリの処理はLLMでは依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2024-09-09T08:29:39Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - ReMatch: Retrieval Enhanced Schema Matching with LLMs [0.874967598360817]
本稿では,検索強化大言語モデル(LLM)を用いたスキーママッチングのためのReMatchという新しい手法を提案する。
大規模な実世界のスキーマに対する実験結果から,ReMatchが効果的なマーカであることが示された。
論文 参考訳(メタデータ) (2024-03-03T17:14:40Z) - An In-Context Schema Understanding Method for Knowledge Base Question
Answering [70.87993081445127]
大きな言語モデル(LLM)は、言語理解において強力な能力を示しており、この課題を解決するために使用することができる。
既存のメソッドは、当初、スキーマ固有の詳細を使わずにLLMを使用してロジックフォームのドラフトを生成することで、この課題を回避している。
そこで本研究では,LLMが文脈内学習を利用してスキーマを直接理解できる簡易なインコンテキスト理解(ICSU)手法を提案する。
論文 参考訳(メタデータ) (2023-10-22T04:19:17Z) - Entity Matching using Large Language Models [3.7277730514654555]
本稿では, PLM ベースのマーカに代わる, タスク固有の訓練データ依存モデルとして, LLM (Generative Large Language Model) を用いて検討する。
GPT4は一致判定のための構造化された説明を生成でき、一致した誤りの原因を自動的に特定できることを示す。
論文 参考訳(メタデータ) (2023-10-17T13:12:32Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Improving Multi-task Generalization Ability for Neural Text Matching via
Prompt Learning [54.66399120084227]
最近の最先端のニューラルテキストマッチングモデル(PLM)は、様々なタスクに一般化することが難しい。
我々は、特殊化一般化訓練戦略を採用し、それをMatch-Promptと呼ぶ。
特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。
一般化段階において、テキストマッチングモデルは、多種多様なマッチングタスクを訓練することにより、本質的なマッチング信号を探索する。
論文 参考訳(メタデータ) (2022-04-06T11:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。