論文の概要: Entity Alignment with Noisy Annotations from Large Language Models
- arxiv url: http://arxiv.org/abs/2405.16806v2
- Date: Tue, 28 May 2024 07:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 10:59:04.117787
- Title: Entity Alignment with Noisy Annotations from Large Language Models
- Title(参考訳): 大規模言語モデルからのノイズアライメントによるエンティティアライメント
- Authors: Shengyuan Chen, Qinggang Zhang, Junnan Dong, Wen Hua, Qing Li, Xiao Huang,
- Abstract要約: 我々は,大規模言語モデルをEAに効果的に活用するための統一フレームワーク LLM4EA を提案する。
具体的には、アノテーション空間を大幅に削減するために、新しいアクティブな学習ポリシーを設計する。
基本EAモデルからのフィードバックに基づいて、ポリシーを反復的に最適化します。
- 参考スコア(独自算出の注目度): 15.189701951003611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entity alignment (EA) aims to merge two knowledge graphs (KGs) by identifying equivalent entity pairs. While existing methods heavily rely on human-generated labels, it is prohibitively expensive to incorporate cross-domain experts for annotation in real-world scenarios. The advent of Large Language Models (LLMs) presents new avenues for automating EA with annotations, inspired by their comprehensive capability to process semantic information. However, it is nontrivial to directly apply LLMs for EA since the annotation space in real-world KGs is large. LLMs could also generate noisy labels that may mislead the alignment. To this end, we propose a unified framework, LLM4EA, to effectively leverage LLMs for EA. Specifically, we design a novel active learning policy to significantly reduce the annotation space by prioritizing the most valuable entities based on the entire inter-KG and intra-KG structure. Moreover, we introduce an unsupervised label refiner to continuously enhance label accuracy through in-depth probabilistic reasoning. We iteratively optimize the policy based on the feedback from a base EA model. Extensive experiments demonstrate the advantages of LLM4EA on four benchmark datasets in terms of effectiveness, robustness, and efficiency. Codes are available via https://github.com/chensyCN/llm4ea_official.
- Abstract(参考訳): エンティティアライメント(EA)は、2つの知識グラフ(KG)をマージすることを目的として、等価なエンティティペアを識別する。
既存の手法は人為的なラベルに大きく依存しているが、実際のシナリオでアノテーションにクロスドメインの専門家を組み込むことは違法である。
LLM(Large Language Models)の出現は、セマンティック情報を処理する包括的な能力に触発されて、アノテーションでEAを自動化するための新しい道を示す。
しかし、実際のKGのアノテーション空間が大きいため、EA に対して LLM を直接適用することは自明ではない。
LLMはアライメントを誤解させる可能性のあるノイズの多いラベルを生成することもできる。
そこで我々は,LLMをEAに効果的に活用するための統一フレームワーク LLM4EA を提案する。
具体的には、KG間構造とKG内構造全体に基づいて、最も価値の高いエンティティを優先順位付けすることで、アノテーション空間を大幅に削減する、新しいアクティブラーニングポリシーを設計する。
さらに,詳細な確率論的推論によりラベルの精度を継続的に向上する教師なしラベル精錬器を導入する。
基本EAモデルからのフィードバックに基づいて、ポリシーを反復的に最適化します。
大規模な実験では、4つのベンチマークデータセットに対して、有効性、堅牢性、効率の点でLLM4EAの利点を実証している。
コードはhttps://github.com/chensyCN/llm4ea_official.comから入手できる。
関連論文リスト
- Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - Unlocking the Power of Large Language Models for Entity Alignment [29.628079581217374]
ChatEAは、大規模な言語モデル(LLM)を取り入れてEAを改善する革新的なフレームワークである。
限られた入力KGデータの制約に対処するため、ChatEAはKGコード翻訳モジュールを導入した。
エンティティの埋め込み比較の過度な信頼性を克服するため、ChatEAは2段階のEA戦略を実装している。
論文 参考訳(メタデータ) (2024-02-23T01:55:35Z) - Two Heads Are Better Than One: Integrating Knowledge from Knowledge
Graphs and Large Language Models for Entity Alignment [31.70064035432789]
LLMEA(Large Language Model-enhanced Entity Alignment Framework)を提案する。
LLMEAは、知識グラフにまたがるエンティティ間の類似性を埋め込んだり、仮想の等価エンティティとの距離を編集することで、特定のエンティティの候補アライメントを識別する。
3つの公開データセットで実施された実験により、LLMEAが主要なベースラインモデルを上回ることが判明した。
論文 参考訳(メタデータ) (2024-01-30T12:41:04Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - GPT-NER: Named Entity Recognition via Large Language Models [58.609582116612934]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。
GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。
これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文 参考訳(メタデータ) (2023-04-20T16:17:26Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - ActiveEA: Active Learning for Neural Entity Alignment [31.212894129845093]
エンティティアライメント(EA)は、異なる知識グラフ(KG)間で同等のエンティティをマッチングすることを目的としている。
現在の主流の手法であるニューラルEAモデルは、シードアライメントによるトレーニング、すなわち、事前整合したエンティティペアのセットに依存しています。
我々は、神経EAのための新しいアクティブラーニング(AL)フレームワークを考案し、非常に有意義なシードアライメントを作ることを目指している。
論文 参考訳(メタデータ) (2021-10-13T03:38:04Z) - MELM: Data Augmentation with Masked Entity Language Modeling for
Cross-lingual NER [73.91145686634133]
Masked-Entity Language Modeling (MELM) を用いたデータ拡張フレームワークを提案する。
MELMは、NERラベルを文コンテキストに線形化するので、細調整されたMELMは、ラベルを明示的に条件付けすることでマスク付きトークンを予測することができる。
未ラベル対象データが利用可能で、MELMが擬似ラベル対象データの拡張にさらに適用可能な場合、性能ゲインは5.7%に達する。
論文 参考訳(メタデータ) (2021-08-31T07:37:43Z) - Interpretable and Low-Resource Entity Matching via Decoupling Feature
Learning from Decision Making [22.755892575582788]
Entity Matchingは、同じ現実世界のオブジェクトを表すエンティティレコードを認識することを目的としている。
異種情報融合(HIF)とキー属性ツリー(KAT)誘導からなる新しいEMフレームワークを提案する。
提案手法は効率が高く,ほとんどの場合SOTA EMモデルより優れている。
論文 参考訳(メタデータ) (2021-06-08T08:27:31Z) - Exploring and Evaluating Attributes, Values, and Structures for Entity
Alignment [100.19568734815732]
エンティティアライメント(EA)は、さまざまなKGから等価なエンティティをリンクすることで、リッチコンテンツの統合知識グラフ(KG)を構築することを目的としている。
属性・トリプルは重要なアライメント信号も提供できますが、まだ十分に調査されていません。
本稿では,属性値エンコーダを用いてKGをサブグラフに分割し,属性の様々なタイプを効率的にモデル化することを提案する。
論文 参考訳(メタデータ) (2020-10-07T08:03:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。