論文の概要: SMUTF: Schema Matching Using Generative Tags and Hybrid Features
- arxiv url: http://arxiv.org/abs/2402.01685v2
- Date: Tue, 6 Feb 2024 06:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 19:03:58.849465
- Title: SMUTF: Schema Matching Using Generative Tags and Hybrid Features
- Title(参考訳): SMUTF:生成タグとハイブリッド機能を用いたスキーママッチング
- Authors: Yu Zhang, Mei Di, Haozheng Luo, Chenwei Xu, Richard Tzong-Han Tsai
- Abstract要約: SMUTFは、教師あり学習がオープンドメインタスクのパフォーマンスに影響を与えないと仮定する。
人道交換言語に触発された革新的な適応では、各データ列に「生成タグ」を配置します。
SMUTFは幅広い汎用性を示し、既存の事前訓練された埋め込み、分類方法、生成モデルとシームレスに機能する。
- 参考スコア(独自算出の注目度): 6.471515752693932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SMUTF, a unique approach for large-scale tabular data schema
matching (SM), which assumes that supervised learning does not affect
performance in open-domain tasks, thereby enabling effective cross-domain
matching. This system uniquely combines rule-based feature engineering,
pre-trained language models, and generative large language models. In an
innovative adaptation inspired by the Humanitarian Exchange Language, we deploy
'generative tags' for each data column, enhancing the effectiveness of SM.
SMUTF exhibits extensive versatility, working seamlessly with any pre-existing
pre-trained embeddings, classification methods, and generative models.
Recognizing the lack of extensive, publicly available datasets for SM, we
have created and open-sourced the HDXSM dataset from the public humanitarian
data. We believe this to be the most exhaustive SM dataset currently available.
In evaluations across various public datasets and the novel HDXSM dataset,
SMUTF demonstrated exceptional performance, surpassing existing
state-of-the-art models in terms of accuracy and efficiency, and} improving the
F1 score by 11.84% and the AUC of ROC by 5.08%.
- Abstract(参考訳): smutfは,教師付き学習がオープンドメインタスクのパフォーマンスに影響を与えないことを想定し,効果的なクロスドメインマッチングを実現する,大規模表型データスキーママッチング(sm)のためのユニークなアプローチである。
このシステムは、ルールベースの機能工学、事前学習された言語モデル、ジェネレーティブな大規模言語モデルを組み合わせている。
人道交換言語に触発された革新的適応では、各データ列に「生成タグ」を配置し、SMの有効性を高める。
SMUTFは幅広い汎用性を示し、既存の事前訓練された埋め込み、分類方法、生成モデルとシームレスに動作する。
sm用の広範な公開データセットがないことを認識して、公開人道データからhdxsmデータセットを作成し、オープンソース化しました。
これは現在利用可能な最も徹底的なSMデータセットだと考えています。
様々な公開データセットと新しいHDXSMデータセットの評価において、SMUTFは、精度と効率の点で既存の最先端モデルを上回り、F1スコアを11.84%改善し、ROCのAUCを5.08%改善した。
関連論文リスト
- Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - $\textbf{Only-IF}$:Revealing the Decisive Effect of Instruction Diversity on Generalization [1.6958018695660049]
トレーニングデータがセマンティックドメインで十分に分散されている場合、textbfonlyが$であることを示す。
例えば$textit$textbfspecialist$$と$textit$textbf generalist$$$モデルの微調整などです。
論文 参考訳(メタデータ) (2024-10-07T03:15:11Z) - Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition [3.4923338594757674]
大型言語モデル(LLM)は、様々な種類のエンティティを抽出できるモデルを訓練するために使用することができる。
本稿では,オープンソースのLLM LLaMA2をバックボーンモデルとして利用し,異なるタイプのエンティティとデータセットを区別するための具体的な命令を設計する。
我々のモデルVANERは、パラメータの小さな分割で訓練され、従来のLLMモデルよりも大幅に優れており、LLMをベースとしたモデルとして初めて、従来の最先端のBioNERシステムの大部分を上回りました。
論文 参考訳(メタデータ) (2024-04-27T09:00:39Z) - UniPredict: Large Language Models are Universal Tabular Classifiers [33.811778526930745]
本稿では、生成モデル、すなわちUniPredictに基づいて、普遍的な表型データ予測器を構築するというアイデアを活用する。
多様なターゲットを持つ169データセットのアグリゲーション上で1つのLLMをトレーニングし、そのパフォーマンスを各データセットで個別にトレーニングされたベースラインと比較する。
我々は、この汎用UniPredictモデルは、最高のツリーブースティングベースラインと最高のニューラルネットワークベースラインと比較して、5.4%から13.4%の範囲で、他のモデルよりも有利であることを示す。
論文 参考訳(メタデータ) (2023-10-05T02:37:09Z) - GenHPF: General Healthcare Predictive Framework with Multi-task
Multi-source Learning [9.406539794019581]
General Healthcare Predictive Framework (GenHPF) は、複数の予測タスクに対して最小限の事前処理を持つ任意の EHR に適用可能である。
我々のフレームワークは、マルチソース学習においてドメイン知識を利用するベースラインモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-07-20T12:46:26Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Multi-Domain Adversarial Feature Generalization for Person
Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。
複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。
また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文 参考訳(メタデータ) (2020-11-25T08:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。