論文の概要: KcMF: A Knowledge-compliant Framework for Schema and Entity Matching with Fine-tuning-free LLMs
- arxiv url: http://arxiv.org/abs/2410.12480v1
- Date: Wed, 16 Oct 2024 11:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:50.452214
- Title: KcMF: A Knowledge-compliant Framework for Schema and Entity Matching with Fine-tuning-free LLMs
- Title(参考訳): KcMF: スキーマとエンティティマッチングのための知識に準拠したフレームワーク
- Authors: Yongqin Xu, Huan Li, Ke Chen, Lidan Shou,
- Abstract要約: 大規模言語モデル(LLM)は、タスク命令に関する幻覚や混乱に悩まされる。
本稿では、ドメイン固有の微調整を必要とせず、これらの問題に対処する知識-互換性マッチングフレームワーク(KcMF)を提案する。
KcMFは、タスク固有の自然言語文を採用するために、擬似コードに基づくタスク分解戦略を採用している。
- 参考スコア(独自算出の注目度): 14.376057807754668
- License:
- Abstract: Schema and entity matching tasks are crucial for data integration and management. While large language models (LLMs) have shown promising results in these tasks, they suffer from hallucinations and confusion about task instructions. In this paper, we present the Knowledge-Compliant Matching Framework (KcMF), an LLM-based approach that addresses these issues without the need for domain-specific fine-tuning. KcMF employs a pseudo-code-based task decomposition strategy to adopt task-specific natural language statements that guide LLM reasoning and reduce confusion. We also propose two mechanisms, Dataset as Knowledge (DaK) and Example as Knowledge (EaK), to build domain knowledge sets when unstructured domain knowledge is lacking. Additionally, we introduce a result-ensembling strategy to leverage multiple knowledge sources and suppress poorly formatted outputs. Comprehensive evaluations on schema and entity matching tasks demonstrate that KcMF outperforms previous non-LLM state-of-the-art (SOTA) methods by an average F1 score of 22.9% and competes effectively with SOTA fine-tuned LLMs. Moreover, KcMF generalizes well across different LLMs.
- Abstract(参考訳): スキーマとエンティティマッチングタスクは、データ統合と管理に不可欠である。
大規模言語モデル(LLM)はこれらのタスクにおいて有望な結果を示しているが、それらは幻覚とタスク命令に関する混乱に悩まされている。
本稿では、ドメイン固有の微調整を必要とせずにこれらの問題に対処するLLMベースのアプローチであるKcMF(Knowledge-Compliant Matching Framework)を提案する。
KcMFは、疑似コードに基づくタスク分解戦略を用いて、タスク固有の自然言語文を採用し、LCM推論をガイドし、混乱を減らす。
また、構造化されていないドメイン知識が不足している場合にドメイン知識セットを構築するために、Dataset as Knowledge (DaK) と Example as Knowledge (EaK) の2つのメカニズムを提案する。
さらに,複数の知識源を利用する結果認識戦略を導入し,低フォーマット出力を抑える。
スキーマとエンティティマッチングタスクに関する総合的な評価は、KcMFが従来の非LLMステート・オブ・ザ・アーティファクト(SOTA)メソッドを平均22.9%で上回り、SOTAの微調整LDMと効果的に競合することを示した。
さらに、KcMF は様々な LLM に対してよく一般化される。
関連論文リスト
- Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? [45.233517779029334]
応答が生成されたコンテキストと検索されたコンテキストに関連付けられているかどうかを識別する。
実験では、誤った情報を提供する場合でも、生成されたコンテキストを優先する複数のLSMにおいて、重大なバイアスが示される。
論文 参考訳(メタデータ) (2024-01-22T12:54:04Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。