論文の概要: Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation
- arxiv url: http://arxiv.org/abs/2110.14509v1
- Date: Wed, 27 Oct 2021 15:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 15:42:12.720356
- Title: Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation
- Title(参考訳): ドメイン適応によるマルチソースエンティティリンケージのためのディープトランスファー学習
- Authors: Di Jin, Bunyamin Sisman, Hao Wei, Xin Luna Dong, Danai Koutra
- Abstract要約: マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
- 参考スコア(独自算出の注目度): 63.24594955429465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-source entity linkage focuses on integrating knowledge from multiple
sources by linking the records that represent the same real world entity. This
is critical in high-impact applications such as data cleaning and user
stitching. The state-of-the-art entity linkage pipelines mainly depend on
supervised learning that requires abundant amounts of training data. However,
collecting well-labeled training data becomes expensive when the data from many
sources arrives incrementally over time. Moreover, the trained models can
easily overfit to specific data sources, and thus fail to generalize to new
sources due to significant differences in data and label distributions. To
address these challenges, we present AdaMEL, a deep transfer learning framework
that learns generic high-level knowledge to perform multi-source entity
linkage. AdaMEL models the attribute importance that is used to match entities
through an attribute-level self-attention mechanism, and leverages the massive
unlabeled data from new data sources through domain adaptation to make it
generic and data-source agnostic. In addition, AdaMEL is capable of
incorporating an additional set of labeled data to more accurately integrate
data sources with different attribute importance. Extensive experiments show
that our framework achieves state-of-the-art results with 8.21% improvement on
average over methods based on supervised learning. Besides, it is more stable
in handling different sets of data sources in less runtime.
- Abstract(参考訳): マルチソースエンティティリンクは、同一の現実世界エンティティを表すレコードをリンクすることで、複数のソースからの知識の統合に焦点を当てる。
これはデータクリーニングやユーザステッチなど、ハイインパクトなアプリケーションでは極めて重要です。
最先端のエンティティリンケージパイプラインは主に、大量のトレーニングデータを必要とする教師付き学習に依存します。
しかし、多くのソースからのデータが徐々に到着すると、ラベルの付いたトレーニングデータの収集はコストがかかる。
さらに、トレーニングされたモデルは特定のデータソースに容易に適合し、データやラベルの分布に大きな違いがあるため、新しいソースに一般化できない。
これらの課題に対処するために,マルチソースエンティティリンクを実行するための汎用的なハイレベル知識を学習するディープトランスファー学習フレームワークであるAdaMELを提案する。
AdaMELは属性レベルの自己アテンションメカニズムを通じてエンティティにマッチするために使用される属性の重要性をモデル化し、ドメイン適応を通じて新しいデータソースからの巨大なラベルのないデータを活用して、ジェネリックでデータソースに依存しないものにします。
さらに、AdaMELはラベル付きデータの追加セットを組み込んで、属性の異なるデータソースをより正確に統合することができる。
大規模実験により,本フレームワークは,教師あり学習に基づく平均的手法よりも8.21%向上した。
さらに、より少ないランタイムで異なるデータソースのセットを扱う場合、より安定している。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Learning To Rank Resources with GNN [7.337247167823921]
本稿では,資源クエリと資源リソースの関係をモデル化可能なグラフニューラルネットワーク(GNN)に基づく学習からランクへのアプローチを提案する。
提案手法は,様々なパフォーマンス指標において,最先端の6.4%から42%を上回っている。
論文 参考訳(メタデータ) (2023-04-17T02:01:45Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - InSRL: A Multi-view Learning Framework Fusing Multiple Information
Sources for Distantly-supervised Relation Extraction [19.176183245280267]
ナレッジベースに広く存在する2つのソース、すなわちエンティティ記述と複数の粒度のエンティティタイプを紹介します。
Intact Space Representation Learning (InSRL) による関係抽出のためのエンドツーエンドのマルチビュー学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-17T02:49:46Z) - LEAPME: Learning-based Property Matching with Embeddings [5.2078071454435815]
LEAPME(LEArning-based Property Matching with Embeddings)と呼ばれる機械学習による新しいプロパティマッチング手法を提案する。
このアプローチでは、プロパティ名とインスタンス値の両方のドメイン固有のセマンティクスをよりよく活用するために、ワード埋め込みを多用している。
実世界データを用いた複数のマルチソースデータセットに対する5つのベースラインの比較評価により,LEAPMEの有効性が示唆された。
論文 参考訳(メタデータ) (2020-10-05T12:42:39Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for
Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。
学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。
提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文 参考訳(メタデータ) (2020-07-13T10:00:44Z) - Multi-Center Federated Learning [62.57229809407692]
本稿では,フェデレート学習のための新しい多中心集約機構を提案する。
非IIDユーザデータから複数のグローバルモデルを学び、同時にユーザとセンタ間の最適なマッチングを導出する。
ベンチマークデータセットによる実験結果から,本手法はいくつかの一般的なフェデレーション学習法より優れていることが示された。
論文 参考訳(メタデータ) (2020-05-03T09:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。