論文の概要: Schemora: schema matching via multi-stage recommendation and metadata enrichment using off-the-shelf llms
- arxiv url: http://arxiv.org/abs/2507.14376v1
- Date: Fri, 18 Jul 2025 21:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.864634
- Title: Schemora: schema matching via multi-stage recommendation and metadata enrichment using off-the-shelf llms
- Title(参考訳): Schemora: オフザシェルフllmを用いたマルチステージレコメンデーションとメタデータ強化によるスキーママッチング
- Authors: Osman Erman Gungor, Derak Paulsen, William Kang,
- Abstract要約: SCHEMORAは、大規模言語モデルとハイブリッド検索技術を組み合わせたスキーママッチングフレームワークである。
MIMIC-OMOPベンチマークで評価され、HitRate@5で7.49%、HitRate@3で3.75%上昇した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Schema matching is essential for integrating heterogeneous data sources and enhancing dataset discovery, yet it remains a complex and resource-intensive problem. We introduce SCHEMORA, a schema matching framework that combines large language models with hybrid retrieval techniques in a prompt-based approach, enabling efficient identification of candidate matches without relying on labeled training data or exhaustive pairwise comparisons. By enriching schema metadata and leveraging both vector-based and lexical retrieval, SCHEMORA improves matching accuracy and scalability. Evaluated on the MIMIC-OMOP benchmark, it establishes new state-of-the-art performance, with gains of 7.49% in HitRate@5 and 3.75% in HitRate@3 over previous best results. To our knowledge, this is the first LLM-based schema matching method with an open-source implementation, accompanied by analysis that underscores the critical role of retrieval and provides practical guidance on model selection.
- Abstract(参考訳): スキーママッチングは異種データソースの統合とデータセット発見の強化に不可欠だが、それでも複雑でリソース集約的な問題である。
本稿では,大規模言語モデルとハイブリッド検索技術を組み合わせたスキーママッチングフレームワークSCHEMORAを提案する。
スキーマメタデータを充実させ、ベクトルベースと語彙検索の両方を活用することで、SCHEMORAはマッチング精度とスケーラビリティを向上させる。
MIMIC-OMOPベンチマークで評価され、HitRate@5では7.49%、HitRate@3では3.75%という、新しい最先端のパフォーマンスを確立している。
我々の知る限り、これはオープンソース実装による最初のLCMベースのスキーママッチング手法であり、検索の重要な役割を裏付ける分析を伴い、モデル選択に関する実践的なガイダンスを提供する。
関連論文リスト
- Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - Knowledge Graph-based Retrieval-Augmented Generation for Schema Matching [3.7548609506798485]
本稿では,大規模言語モデル(LLM)マッチングのための知識グラフに基づく検索型生成モデルを提案する。
特に、KG-RAG4SMはベクトルベース、グラフベース、クエリベースのグラフ検索を導入している。
KG-RAG4SMは、MIMICデータセットの精度とF1スコアにおいて、最先端(SOTA)法を35.89%、30.50%で上回っている。
論文 参考訳(メタデータ) (2025-01-15T09:32:37Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - ReMatch: Retrieval Enhanced Schema Matching with LLMs [0.874967598360817]
本稿では,検索強化大言語モデル(LLM)を用いたスキーママッチングのためのReMatchという新しい手法を提案する。
大規模な実世界のスキーマに対する実験結果から,ReMatchが効果的なマーカであることが示された。
論文 参考訳(メタデータ) (2024-03-03T17:14:40Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - Meeting Summarization with Pre-training and Clustering Methods [6.47783315109491]
HMNetcitehmnetは、ワードレベルのトランスフォーマーとターンレベルのトランスフォーマーの両方をベースラインとして使用する階層型ネットワークである。
中間クラスタリングステップでQMSumciteqmsumの位置列列化アプローチを拡張する。
ベースラインモデルの性能を,要約に有効な最先端言語モデルであるBARTと比較する。
論文 参考訳(メタデータ) (2021-11-16T03:14:40Z) - Hyperparameter Optimization with Differentiable Metafeatures [5.586191108738563]
DMFBS(diffariable Metafeature-based Surrogate)と呼ばれるクロスデータセットサロゲートモデルを提案する。
既存のモデルとは対照的に、DMFBS i) は微分可能なメタ機能抽出器を統合し、i) は新規なマルチタスク損失を用いて最適化される。
DMFBSをHPOの3つの大規模メタデータセットの最近のモデルと比較し、平均10%の改善でその性能を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2021-02-07T11:06:31Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。