論文の概要: Entity Matching using Large Language Models
- arxiv url: http://arxiv.org/abs/2310.11244v4
- Date: Fri, 18 Oct 2024 10:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:23:12.500816
- Title: Entity Matching using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたエンティティマッチング
- Authors: Ralph Peeters, Aaron Steiner, Christian Bizer,
- Abstract要約: 本稿では, PLM ベースのマーカに代わる, タスク固有の訓練データ依存モデルとして, LLM (Generative Large Language Model) を用いて検討する。
GPT4は一致判定のための構造化された説明を生成でき、一致した誤りの原因を自動的に特定できることを示す。
- 参考スコア(独自算出の注目度): 3.7277730514654555
- License:
- Abstract: Entity matching is the task of deciding whether two entity descriptions refer to the same real-world entity. Entity matching is a central step in most data integration pipelines. Many state-of-the-art entity matching methods rely on pre-trained language models (PLMs) such as BERT or RoBERTa. Two major drawbacks of these models for entity matching are that (i) the models require significant amounts of task-specific training data and (ii) the fine-tuned models are not robust concerning out-of-distribution entities. This paper investigates using generative large language models (LLMs) as a less task-specific training data-dependent and more robust alternative to PLM-based matchers. The study covers hosted and open-source LLMs which can be run locally. We evaluate these models in a zero-shot scenario and a scenario where task-specific training data is available. We compare different prompt designs and the prompt sensitivity of the models. We show that there is no single best prompt but that the prompt needs to be tuned for each model/dataset combination. We further investigate (i) the selection of in-context demonstrations, (ii) the generation of matching rules, as well as (iii) fine-tuning LLMs using the same pool of training data. Our experiments show that the best LLMs require no or only a few training examples to perform comparably to PLMs that were fine-tuned using thousands of examples. LLM-based matchers further exhibit higher robustness to unseen entities. We show that GPT4 can generate structured explanations for matching decisions and can automatically identify potential causes of matching errors by analyzing explanations of wrong decisions. We demonstrate that the model can generate meaningful textual descriptions of the identified error classes, which can help data engineers to improve entity matching pipelines.
- Abstract(参考訳): エンティティマッチングは、2つのエンティティ記述が同じ現実世界のエンティティを指すかどうかを決定するタスクである。
エンティティマッチングは、ほとんどのデータ統合パイプラインにおける中心的なステップである。
多くの最先端エンティティマッチング方法は、BERTやRoBERTaのような事前訓練された言語モデル(PLM)に依存している。
エンティティマッチングにおけるこれらのモデルの2つの大きな欠点は、それらである。
一 相当量のタスク特化訓練データを必要とするモデル
(ii) 細調整されたモデルは分布外エンティティに関して堅牢ではない。
本稿では, PLM ベースのマーカに代わる, タスク依存のトレーニングモデルとして, ジェネレーティブな大規模言語モデル (LLM) を用いて検討する。
この研究は、ローカルで実行できるLLMをホストおよびオープンソースでカバーしている。
我々は、これらのモデルをゼロショットシナリオとタスク固有のトレーニングデータが利用できるシナリオで評価する。
異なるプロンプト設計とモデルの即時感度を比較した。
最良なプロンプトはひとつではなく、各モデル/データセットの組み合わせに合わせてプロンプトをチューニングする必要があることを示す。
我々はさらに調査する
i) 文脈内デモンストレーションの選択
(二)一致規則の生成及び一致規則の作成
3同じトレーニングデータのプールを用いた微調整LDM。
実験の結果, 数千の例を用いて微調整したPLMに適合する訓練例は, 数例, あるいは数例しか必要としないことがわかった。
LLMベースのマーカはさらに、目に見えないエンティティに対して高いロバスト性を示す。
GPT4は一致判定のための構造化された説明を生成することができ、誤判定の説明を分析することにより、一致した誤りの潜在的な原因を自動的に特定できることを示す。
モデルが識別されたエラークラスの意味のあるテキスト記述を生成することを実証し、データエンジニアがエンティティマッチングパイプラインを改善するのに役立つことを実証した。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Learning from Natural Language Explanations for Generalizable Entity Matching [19.978468744557173]
バイナリ分類とは対照的に、条件生成タスクとしてエンティティマッチングを再キャストする。
これにより、LLM推論を自然言語による説明を通じて、より小さなエンティティマッチングモデルに分割することが可能になる。
論文 参考訳(メタデータ) (2024-06-13T17:08:58Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Product Attribute Value Extraction using Large Language Models [56.96665345570965]
事前学習言語モデル(PLM)に基づく最先端属性/値抽出手法は2つの欠点に直面している。
我々は,大規模言語モデル(LLM)を,既存の属性/値抽出法に代わる,より訓練的なデータ効率,より堅牢な代替手段として活用する可能性を探る。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Large Language Model Routing with Benchmark Datasets [40.42044096089315]
通常、単一のモデルがすべてのタスクやユースケースで最高の精度を達成することはない。
そこで我々は,この選択のための"ルータ"モデルを学習するために,ベンチマークデータセットを再利用した新しい定式化を提案する。
本稿では,この問題をバイナリ分類タスクの集合に還元できることを示す。
論文 参考訳(メタデータ) (2023-09-27T17:08:40Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。