論文の概要: CorDEL: A Contrastive Deep Learning Approach for Entity Linkage
- arxiv url: http://arxiv.org/abs/2009.07203v3
- Date: Thu, 3 Dec 2020 00:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 06:50:17.030909
- Title: CorDEL: A Contrastive Deep Learning Approach for Entity Linkage
- Title(参考訳): CorDEL: エンティティリンケージのための対照的なディープラーニングアプローチ
- Authors: Zhengyang Wang, Bunyamin Sisman, Hao Wei, Xin Luna Dong, Shuiwang Ji
- Abstract要約: エンティティリンケージ(EL)は、データのクリーニングと統合において重要な問題である。
新たなデータの増加に伴い、ディープラーニング(DL)ベースのアプローチが提案され、従来のモデルに付随するELの高コスト化が図られている。
我々は、ツインネットワークアーキテクチャはELに準最適であり、既存のモデルに固有の欠点をもたらすと主張している。
- 参考スコア(独自算出の注目度): 70.82533554253335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity linkage (EL) is a critical problem in data cleaning and integration.
In the past several decades, EL has typically been done by rule-based systems
or traditional machine learning models with hand-curated features, both of
which heavily depend on manual human inputs. With the ever-increasing growth of
new data, deep learning (DL) based approaches have been proposed to alleviate
the high cost of EL associated with the traditional models. Existing
exploration of DL models for EL strictly follows the well-known twin-network
architecture. However, we argue that the twin-network architecture is
sub-optimal to EL, leading to inherent drawbacks of existing models. In order
to address the drawbacks, we propose a novel and generic contrastive DL
framework for EL. The proposed framework is able to capture both syntactic and
semantic matching signals and pays attention to subtle but critical
differences. Based on the framework, we develop a contrastive DL approach for
EL, called CorDEL, with three powerful variants. We evaluate CorDEL with
extensive experiments conducted on both public benchmark datasets and a
real-world dataset. CorDEL outperforms previous state-of-the-art models by 5.2%
on public benchmark datasets. Moreover, CorDEL yields a 2.4% improvement over
the current best DL model on the real-world dataset, while reducing the number
of training parameters by 97.6%.
- Abstract(参考訳): エンティティリンケージ(EL)は、データのクリーニングと統合において重要な問題である。
過去数十年間、ELは通常、手作業による入力に大きく依存する、ルールベースのシステムや手作業による特徴を持つ従来の機械学習モデルによって行われてきた。
新たなデータの増加に伴い、ディープラーニング(DL)ベースのアプローチが提案され、従来のモデルに関連するELの高コスト化が図られている。
ELのための既存のDLモデルの探索は、よく知られたツインネットワークアーキテクチャに厳密に従っている。
しかし、ツインネットワークアーキテクチャはELに準最適であり、既存のモデルに固有の欠点をもたらすと論じる。
この欠点に対処するため,EL のための新規かつ汎用的な DL フレームワークを提案する。
提案手法は,構文的および意味的一致信号の両方を捉えることができ,微妙だが重要な差異に注意を向ける。
このフレームワークに基づいて,CorDELと呼ばれる3つの強力な変種を持つELのための対照的なDLアプローチを開発した。
我々はCorDELを、公開ベンチマークデータセットと実世界のデータセットの両方で広範な実験により評価する。
CorDELは、従来の最先端モデルを公開ベンチマークデータセットで5.2%上回っている。
さらに、CorDELは、現在の最高のDLモデルよりも2.4%改善され、トレーニングパラメータの数を97.6%削減した。
関連論文リスト
- A Two-Scale Complexity Measure for Deep Learning Models [2.7446241148152257]
有効次元に基づく統計モデルのための新しいキャパシティ尺度2sEDを導入する。
新しい量は、モデル上の軽度の仮定の下で一般化誤差を証明的に有界にする。
標準データセットと一般的なモデルアーキテクチャのシミュレーションは、2sEDがトレーニングエラーとよく相関していることを示している。
論文 参考訳(メタデータ) (2024-01-17T12:50:50Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Knowledge Distillation for Federated Learning: a Practical Guide [8.2791533759453]
フェデレートラーニング(FL)は、センシティブな生データを集中的に収集することなく、ディープラーニングモデルのトレーニングを可能にする。
FLの最もよく使われるアルゴリズムはパラメータに基づくスキーム(フェデレート平均化など)である。
我々は、特定のFL問題に適したKDベースのアルゴリズムのレビューを行う。
論文 参考訳(メタデータ) (2022-11-09T08:31:23Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。
下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。