論文の概要: Cross-Language Learning for Entity Matching
- arxiv url: http://arxiv.org/abs/2110.03338v1
- Date: Thu, 7 Oct 2021 11:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:47:27.493979
- Title: Cross-Language Learning for Entity Matching
- Title(参考訳): エンティティマッチングのための言語横断学習
- Authors: Ralph Peeters, Christian Bizer
- Abstract要約: 本稿では、異なるe-Shopsから提供される商品のマッチングのユースケースについて検討する。
対象言語における少数のトレーニングペアを補完することにより,Transformerベースのエンティティマーカの性能を向上させることが可能である。
- 参考スコア(独自算出の注目度): 2.9697051524971743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based matching methods have significantly moved the
state-of-the-art for less-structured matching tasks involving textual entity
descriptions. In order to excel on these tasks, Transformer-based matching
methods require a decent amount of training pairs. Providing enough training
data can be challenging, especially if a matcher for non-English entity
descriptions should be learned. This paper explores along the use case of
matching product offers from different e-shops to which extent it is possible
to improve the performance of Transformer-based entity matchers by
complementing a small set of training pairs in the target language, German in
our case, with a larger set of English-language training pairs. Our experiments
using different Transformers show that extending the German set with English
pairs is always beneficial. The impact of adding the English pairs is
especially high in low-resource settings in which only a rather small number of
non-English pairs is available. As it is often possible to automatically gather
English training pairs from the Web by using schema.org annotations, our
results could proof relevant for many product matching scenarios targeting
low-resource languages.
- Abstract(参考訳): トランスフォーマティブベースのマッチングメソッドは、テキストのエンティティ記述を含む非構造化マッチングタスクに対して、最先端を著しく移行した。
これらのタスクを最適化するためには、Transformerベースのマッチング方法は十分な量のトレーニングペアを必要とする。
十分なトレーニングデータを提供することは、特に非英語のエンティティ記述のマッチングを学ぶ必要がある場合、難しくなる。
本稿では,異なるe-Shopsから提供される商品のマッチングのユースケースについて検討し,ターゲット言語における少数のトレーニングペアを補足することで,トランスフォーマーベースのエンティティマーカの性能を向上させることができるかを,より大規模な英語と英語のトレーニングペアを用いて検討する。
異なるトランスフォーマーを用いた実験は、ドイツ語セットを英語ペアで拡張することが常に有益であることを示している。
英語のペアを追加することの影響は、比較的少数の非英語のペアしか利用できない低リソース設定において特に大きい。
schema.orgアノテーションを使うことで、Webから英語のトレーニングペアを自動的に収集することが可能になるため、低リソース言語をターゲットにした多くの製品マッチングシナリオに関連性があることが証明できる。
関連論文リスト
- VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Efficient Test Time Adapter Ensembling for Low-resource Language
Varieties [115.12997212870962]
多言語事前学習モデルの言語間移動を容易にするために,特殊言語とタスクアダプタが提案されている。
直感的な解法は、新しい言語の種類に関連言語アダプタを使用することであるが、この解が準最適性能をもたらすことを観察する。
本稿では,新しいアダプタを訓練することなく,未知言語への言語アダプタの堅牢性を向上させることを目的とする。
論文 参考訳(メタデータ) (2021-09-10T13:44:46Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。