論文の概要: Deep Entity Matching with Pre-Trained Language Models
- arxiv url: http://arxiv.org/abs/2004.00584v3
- Date: Wed, 2 Sep 2020 19:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 19:12:38.828523
- Title: Deep Entity Matching with Pre-Trained Language Models
- Title(参考訳): 事前学習言語モデルを用いたディープエンティティマッチング
- Authors: Yuliang Li, Jinfeng Li, Yoshihiko Suhara, AnHai Doan, Wang-Chiew Tan
- Abstract要約: Dittoは、事前訓練されたTransformerベースの言語モデルに基づく新しいエンティティマッチングシステムである。
我々の実験により、Dittoはマッチング品質を著しく改善し、従来のSOTA(State-of-the-art)よりも優れていることが示された。
実世界の大規模EMタスクにおけるDittoの有効性を実証する。
- 参考スコア(独自算出の注目度): 26.482687858579844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Ditto, a novel entity matching system based on pre-trained
Transformer-based language models. We fine-tune and cast EM as a sequence-pair
classification problem to leverage such models with a simple architecture. Our
experiments show that a straightforward application of language models such as
BERT, DistilBERT, or RoBERTa pre-trained on large text corpora already
significantly improves the matching quality and outperforms previous
state-of-the-art (SOTA), by up to 29% of F1 score on benchmark datasets. We
also developed three optimization techniques to further improve Ditto's
matching capability. Ditto allows domain knowledge to be injected by
highlighting important pieces of input information that may be of interest when
making matching decisions. Ditto also summarizes strings that are too long so
that only the essential information is retained and used for EM. Finally, Ditto
adapts a SOTA technique on data augmentation for text to EM to augment the
training data with (difficult) examples. This way, Ditto is forced to learn
"harder" to improve the model's matching capability. The optimizations we
developed further boost the performance of Ditto by up to 9.8%. Perhaps more
surprisingly, we establish that Ditto can achieve the previous SOTA results
with at most half the number of labeled data. Finally, we demonstrate Ditto's
effectiveness on a real-world large-scale EM task. On matching two company
datasets consisting of 789K and 412K records, Ditto achieves a high F1 score of
96.5%.
- Abstract(参考訳): 本稿では,事前学習したトランスフォーマーに基づく言語モデルに基づく新しいエンティティマッチングシステムDittoを提案する。
我々は、EMをシーケンスペア分類問題として微調整し、簡単なアーキテクチャでそのようなモデルを活用する。
実験の結果,大容量テキストコーパス上で事前学習したBERT, DistilBERT, RoBERTaなどの言語モデルの直接適用により,マッチング品質が向上し,ベンチマークデータセット上でF1スコアの最大29%がSOTA(State-of-the-art)よりも優れていた。
また,Dittoのマッチング機能を改善するために3つの最適化手法を開発した。
dittoは、一致する決定を行う際に関心のある重要な入力情報の一部を強調することで、ドメイン知識を注入できる。
Dittoはまた、重要な情報のみを保持してEMに使用するのに長すぎる文字列を要約している。
最後に、Dittoはテキストのデータ拡張にSOTA技術を適用し、(難解な)例でトレーニングデータを拡張する。
このようにして、ディットーはモデルのマッチング能力を改善するために「よりハード」を学ぶことを余儀なくされる。
私たちが開発した最適化により、dittoのパフォーマンスはさらに9.8%向上しました。
おそらくもっと驚くべきことに、Dittoはラベル付きデータの半分以上のデータで以前のSOTA結果を達成することができる。
最後に,実世界の大規模EMタスクにおけるDittoの有効性を示す。
789Kと412Kの2つの企業データセットをマッチングすると、Dittoは96.5%という高いF1スコアを達成した。
関連論文リスト
- Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - On the Pareto Front of Multilingual Neural Machine Translation [123.94355117635293]
我々は、ニューラルネットワーク翻訳(MNMT)におけるサンプリング比によって、与えられた方向の性能がどう変化するかを検討する。
我々は,MNMTにおけるユニークなパフォーマンストレードオフフロントを予測するために,ダブルパワー法を提案する。
本実験では, トレーニング予算の1/5から1/2に過ぎず, 温度探索法や勾配操作法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2023-04-06T16:49:19Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Make More of Your Data: Minimal Effort Data Augmentation for Automatic
Speech Recognition and Translation [14.839931533868176]
新しいトレーニングインスタンスを構築するために、オリジナルのデータ例を連結する、シンプルで費用効率の良い方法を評価する。
また, 継続学習法は, 非英語4言語に対するCoVoST-2のASR部において最大0.9 WERの改善をもたらす。
論文 参考訳(メタデータ) (2022-10-27T13:01:01Z) - Efficient Training of Language Models to Fill in the Middle [17.118891860985123]
自動回帰言語モデルは、データセットに直接的な変換を適用した後、テキストを埋めることを学ぶことができる。
FIMモデルのトレーニングには、デフォルト設定の強い設定とベストプラクティスを規定するために、これらのアブリケーションを使用します。
私たちはAPIのベストプラクティスでトレーニングされた最高のインフィルモデルをリリースし、将来の研究を支援するためにインフィルベンチマークをリリースしました。
論文 参考訳(メタデータ) (2022-07-28T17:40:47Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - FiSSA at SemEval-2020 Task 9: Fine-tuned For Feelings [2.362412515574206]
本稿では,スペイン語と英語の混在するソーシャルメディアデータを用いた感情分類手法を提案する。
単言語モデルと多言語モデルの両方を標準微調整法を用いて検討する。
2段階の微調整により、ベースモデルよりも感情分類性能が向上するが、大規模多言語XLM-RoBERTaモデルではF1スコアが最適である。
論文 参考訳(メタデータ) (2020-07-24T14:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。