Fugu-MT 論文翻訳(概要): SMUTF: Schema Matching Using Generative Tags and Hybrid Features

論文の概要: SMUTF: Schema Matching Using Generative Tags and Hybrid Features

arxiv url: http://arxiv.org/abs/2402.01685v2
Date: Tue, 6 Feb 2024 06:03:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 19:03:58.849465
Title: SMUTF: Schema Matching Using Generative Tags and Hybrid Features
Title（参考訳）: SMUTF:生成タグとハイブリッド機能を用いたスキーママッチング
Authors: Yu Zhang, Mei Di, Haozheng Luo, Chenwei Xu, Richard Tzong-Han Tsai
Abstract要約: SMUTFは、教師あり学習がオープンドメインタスクのパフォーマンスに影響を与えないと仮定する。人道交換言語に触発された革新的な適応では、各データ列に「生成タグ」を配置します。 SMUTFは幅広い汎用性を示し、既存の事前訓練された埋め込み、分類方法、生成モデルとシームレスに機能する。
参考スコア（独自算出の注目度）: 6.471515752693932
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce SMUTF, a unique approach for large-scale tabular data schema matching (SM), which assumes that supervised learning does not affect performance in open-domain tasks, thereby enabling effective cross-domain matching. This system uniquely combines rule-based feature engineering, pre-trained language models, and generative large language models. In an innovative adaptation inspired by the Humanitarian Exchange Language, we deploy 'generative tags' for each data column, enhancing the effectiveness of SM. SMUTF exhibits extensive versatility, working seamlessly with any pre-existing pre-trained embeddings, classification methods, and generative models. Recognizing the lack of extensive, publicly available datasets for SM, we have created and open-sourced the HDXSM dataset from the public humanitarian data. We believe this to be the most exhaustive SM dataset currently available. In evaluations across various public datasets and the novel HDXSM dataset, SMUTF demonstrated exceptional performance, surpassing existing state-of-the-art models in terms of accuracy and efficiency, and} improving the F1 score by 11.84% and the AUC of ROC by 5.08%.
Abstract（参考訳）: smutfは,教師付き学習がオープンドメインタスクのパフォーマンスに影響を与えないことを想定し,効果的なクロスドメインマッチングを実現する,大規模表型データスキーママッチング(sm)のためのユニークなアプローチである。このシステムは、ルールベースの機能工学、事前学習された言語モデル、ジェネレーティブな大規模言語モデルを組み合わせている。人道交換言語に触発された革新的適応では、各データ列に「生成タグ」を配置し、SMの有効性を高める。 SMUTFは幅広い汎用性を示し、既存の事前訓練された埋め込み、分類方法、生成モデルとシームレスに動作する。 sm用の広範な公開データセットがないことを認識して、公開人道データからhdxsmデータセットを作成し、オープンソース化しました。これは現在利用可能な最も徹底的なSMデータセットだと考えています。様々な公開データセットと新しいHDXSMデータセットの評価において、SMUTFは、精度と効率の点で既存の最先端モデルを上回り、F1スコアを11.84%改善し、ROCのAUCを5.08%改善した。

関連論文リスト

Relation-Aware Graph Foundation Model [21.86954503656643]
グラフ基礎モデル (GFMs) がグラフ学習において有望な方向として登場した。明示的なトークン表現に依存する言語モデルとは異なり、グラフは一般化のための明確に定義された単位を持たない。 GFMの基本単位として関係トークンを利用する新しいフレームワークREEFを提案する。
論文参考訳（メタデータ） (2025-05-17T14:34:41Z)
Lazy But Effective: Collaborative Personalized Federated Learning with Heterogeneous Data [15.15596911693489]
フェデレートラーニング(Federated Learning)では、単一のグローバルモデルが個々のクライアントにとって最高のパフォーマンスを持っていない。本稿では,計算効率のよい影響近似を用いたパーソナライズド・フェデレーション・ラーニング・フレームワーク(pFedLIA)を提案する。提案手法は, 合成および実世界の様々な環境における非IID-Lazynessにより, グローバルモデルの性能低下を回復することに成功した。
論文参考訳（メタデータ） (2025-05-05T10:26:35Z)
TabGLM: Tabular Graph Language Model for Learning Transferable Representations Through Multi-Modal Consistency Minimization [2.1067477213933503]
TabGLM (Tabular Graph Language Model) はテーブルの構造情報と意味情報の両方をモデル化する新しいマルチモーダルアーキテクチャである。テーブルの各行を完全に連結されたグラフとシリアライズされたテキストに変換し、それぞれグラフニューラルネットワーク(GNN)とテキストエンコーダを使って符号化する。 25のベンチマークデータセットに対する評価は、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2025-02-26T05:32:45Z)
Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。 Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文参考訳（メタデータ） (2024-10-31T16:34:03Z)
$\textbf{Only-IF}$:Revealing the Decisive Effect of Instruction Diversity on Generalization [1.6958018695660049]
トレーニングデータがセマンティックドメインで十分に分散されている場合、textbfonlyが$であることを示す。例えば$textit$textbfspecialist$$と$textit$textbf generalist$$$モデルの微調整などです。
論文参考訳（メタデータ） (2024-10-07T03:15:11Z)
Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文参考訳（メタデータ） (2024-10-03T08:27:54Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition [3.4923338594757674]
大型言語モデル(LLM)は、様々な種類のエンティティを抽出できるモデルを訓練するために使用することができる。本稿では,オープンソースのLLM LLaMA2をバックボーンモデルとして利用し,異なるタイプのエンティティとデータセットを区別するための具体的な命令を設計する。我々のモデルVANERは、パラメータの小さな分割で訓練され、従来のLLMモデルよりも大幅に優れており、LLMをベースとしたモデルとして初めて、従来の最先端のBioNERシステムの大部分を上回りました。
論文参考訳（メタデータ） (2024-04-27T09:00:39Z)
UniPredict: Large Language Models are Universal Tabular Classifiers [33.811778526930745]
本稿では、生成モデル、すなわちUniPredictに基づいて、普遍的な表型データ予測器を構築するというアイデアを活用する。多様なターゲットを持つ169データセットのアグリゲーション上で1つのLLMをトレーニングし、そのパフォーマンスを各データセットで個別にトレーニングされたベースラインと比較する。我々は、この汎用UniPredictモデルは、最高のツリーブースティングベースラインと最高のニューラルネットワークベースラインと比較して、5.4%から13.4%の範囲で、他のモデルよりも有利であることを示す。
論文参考訳（メタデータ） (2023-10-05T02:37:09Z)
Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文参考訳（メタデータ） (2023-06-28T03:31:31Z)
Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文参考訳（メタデータ） (2022-09-30T15:01:35Z)
GenHPF: General Healthcare Predictive Framework with Multi-task Multi-source Learning [9.406539794019581]
General Healthcare Predictive Framework (GenHPF) は、複数の予測タスクに対して最小限の事前処理を持つ任意の EHR に適用可能である。我々のフレームワークは、マルチソース学習においてドメイン知識を利用するベースラインモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2022-07-20T12:46:26Z)
Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。本研究では,より現実的で実践的な半教師付き領域一般化について検討する。提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文参考訳（メタデータ） (2021-06-01T16:00:08Z)
Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文参考訳（メタデータ） (2020-12-29T23:43:16Z)
Multi-Domain Adversarial Feature Generalization for Person Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文参考訳（メタデータ） (2020-11-25T08:03:15Z)
Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。 IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。 IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文参考訳（メタデータ） (2020-01-10T16:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。