論文の概要: DAME: Domain Adaptation for Matching Entities
- arxiv url: http://arxiv.org/abs/2204.09244v1
- Date: Wed, 20 Apr 2022 06:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 15:43:10.103871
- Title: DAME: Domain Adaptation for Matching Entities
- Title(参考訳): DAME: マッチングエンティティのためのドメイン適応
- Authors: Mohamed Trabelsi, Jeff Heflin, Jin Cao
- Abstract要約: 本稿では,タスク知識を複数のソースドメインから対象ドメインに転送するドメイン適応型手法を提案する。
本手法は,タスク固有の知識を事前学習から捉えることを目的として,EMのための新しい設定を提案する。
複数のドメインからターゲットデータセットを微調整し、EMの最先端手法よりもモデルが一般化できることを実証する。
- 参考スコア(独自算出の注目度): 9.719972529205101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity matching (EM) identifies data records that refer to the same
real-world entity. Despite the effort in the past years to improve the
performance in EM, the existing methods still require a huge amount of labeled
data in each domain during the training phase. These methods treat each domain
individually, and capture the specific signals for each dataset in EM, and this
leads to overfitting on just one dataset. The knowledge that is learned from
one dataset is not utilized to better understand the EM task in order to make
predictions on the unseen datasets with fewer labeled samples. In this paper,
we propose a new domain adaptation-based method that transfers the task
knowledge from multiple source domains to a target domain. Our method presents
a new setting for EM where the objective is to capture the task-specific
knowledge from pretraining our model using multiple source domains, then
testing our model on a target domain. We study the zero-shot learning case on
the target domain, and demonstrate that our method learns the EM task and
transfers knowledge to the target domain. We extensively study fine-tuning our
model on the target dataset from multiple domains, and demonstrate that our
model generalizes better than state-of-the-art methods in EM.
- Abstract(参考訳): エンティティマッチング(EM)は、同じ現実世界のエンティティを参照するデータレコードを識別する。
過去数年間のemのパフォーマンス改善努力にもかかわらず、既存のメソッドはトレーニングフェーズで各ドメインに大量のラベル付きデータを必要としている。
これらのメソッドは各ドメインを個別に扱い、em内の各データセットの特定の信号をキャプチャする。
あるデータセットから学んだ知識は、ラベル付きサンプルが少ない未確認データセットの予測を行うために、EMタスクをよりよく理解するために利用されない。
本稿では,複数のソースドメインから対象ドメインへタスク知識を転送する新しいドメイン適応ベース手法を提案する。
提案手法では,複数のソースドメインを用いた事前トレーニングからタスク固有の知識を取り込み,対象ドメインでモデルをテストすることを目的とした,emの新しい設定を提案する。
対象領域におけるゼロショット学習事例を調査し,本手法がemタスクを学習し,対象領域に知識を伝達することを示す。
複数のドメインからターゲットデータセットを微調整し、EMの最先端手法よりもモデルが一般化できることを実証する。
関連論文リスト
- Name Tagging Under Domain Shift via Metric Learning for Life Sciences [60.28614660153841]
バイオメディカルドメインで訓練された名前タグ付けモデルを強化するための転写学習の適用性について検討する。
このようなモデルをトレーニングするための一般的なプラクティスは、ラベル付きソースデータ上でモデルを事前トレーニングし、ラベル付きターゲットサンプルのハンドフルでそれを微調整することです。
本稿では、ソースドメインからターゲットドメインに知識を転送すると同時に、ソースエンティティとターゲットエンティティを特徴空間の別々の領域に投影するモデルを提案する。
論文 参考訳(メタデータ) (2024-01-19T03:49:28Z) - A Two-Stage Framework with Self-Supervised Distillation For Cross-Domain
Text Classification [63.338588280577106]
クロスドメインテキスト分類は、ラベル付きデータを持たないターゲットドメインにモデルを適応させることを目的としている。
クロスドメインテキスト分類のための2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-18T06:21:40Z) - Meta-DMoE: Adapting to Domain Shift by Meta-Distillation from
Mixture-of-Experts [33.21435044949033]
既存のほとんどのメソッドは、単一のモデルを使って複数のソースドメインでトレーニングを行います。
本稿では,知識蒸留プロセスとして定式化された非教師なし試験時間適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-08T02:28:10Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Cluster, Split, Fuse, and Update: Meta-Learning for Open Compound Domain
Adaptive Semantic Segmentation [102.42638795864178]
セマンティックセグメンテーションのための原則的メタラーニングに基づくOCDAアプローチを提案する。
対象ドメインを複数のサブターゲットドメインに,教師なしの方法で抽出した画像スタイルでクラスタリングする。
その後、メタラーニングがデプロイされ、スタイルコードに条件付きでサブターゲットドメイン固有の予測を融合するように学習される。
モデルに依存しないメタラーニング(MAML)アルゴリズムにより,モデルをオンライン更新することを学び,一般化をさらに改善する。
論文 参考訳(メタデータ) (2020-12-15T13:21:54Z) - Learning to Cluster under Domain Shift [20.00056591000625]
本研究では、ソースデータとターゲットデータの両方にアノテーションがない場合に、ソースからターゲットドメインに知識を転送する問題に対処する。
ディープクラスタリングに関する最近の研究から着想を得た私たちのアプローチは、複数のソースドメインから収集されたデータからの情報を活用する。
本手法は,少数のサンプルが存在する場合でも,関連する意味情報を自動的に発見できることを示す。
論文 参考訳(メタデータ) (2020-08-11T12:03:01Z) - Dynamic Fusion Network for Multi-Domain End-to-end Task-Oriented Dialog [70.79442700890843]
本稿では,対象ドメインと各ドメインの関連性を自動的に活用する新しい動的核融合ネットワーク(DF-Net)を提案する。
トレーニングデータが少ないと、平均13.9%の事前最良モデルを上回り、転送可能性を示す。
論文 参考訳(メタデータ) (2020-04-23T08:17:22Z) - Unified Multi-Domain Learning and Data Imputation using Adversarial
Autoencoder [5.933303832684138]
マルチドメイン学習(MDL)、データ計算(DI)、マルチタスク学習(MTL)を組み合わせた新しいフレームワークを提案する。
本手法のコアとなるのは,(1)ドメイン間の差を小さくするためにドメイン不変な埋め込みを生成すること,(2)各ドメインのデータ分布を学習し,欠落データに対するデータ計算を正しく行うこと,である。
論文 参考訳(メタデータ) (2020-03-15T19:55:07Z) - Deep Domain-Adversarial Image Generation for Domain Generalisation [115.21519842245752]
マシンラーニングモデルは通常、ソースデータセットでトレーニングされたり、異なるディストリビューションのターゲットデータセットで評価されたりする際に、ドメインシフトの問題に悩まされる。
この問題を解決するために、ドメイン一般化(DG)手法は、訓練されたモデルが未知のドメインに一般化できるように、複数のソースドメインからのデータを活用することを目的としている。
我々はemphDeep Domain-Adversarial Image Generation (DDAIG)に基づく新しいDG手法を提案する。
論文 参考訳(メタデータ) (2020-03-12T23:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。