論文の概要: Leveraging Subword Embeddings for Multinational Address Parsing
- arxiv url: http://arxiv.org/abs/2006.16152v3
- Date: Sun, 2 May 2021 14:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:29:00.357148
- Title: Leveraging Subword Embeddings for Multinational Address Parsing
- Title(参考訳): 多国間アドレス解析のためのサブワード埋め込みの活用
- Authors: Marouane Yassine, David Beauchemin, Fran\c{c}ois Laviolette, Luc
Lamontagne
- Abstract要約: 我々は、複数の国のアドレスを同時に解析できる単一のモデルを構築します。
我々は,事前処理や後処理を必要とせず,訓練に使用する国で約99%のアキュラティを達成している。
ゼロショット・トランスファー・ラーニング・セッティングにおいて、一部の国のアドレスのトレーニングによって得られたアドレス解析知識を、それ以上の訓練を受けずに他国に転送する可能性について検討する。
- 参考スコア(独自算出の注目度): 0.0764671395172401
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Address parsing consists of identifying the segments that make up an address
such as a street name or a postal code. Because of its importance for tasks
like record linkage, address parsing has been approached with many techniques.
Neural network methods defined a new state-of-the-art for address parsing.
While this approach yielded notable results, previous work has only focused on
applying neural networks to achieve address parsing of addresses from one
source country. We propose an approach in which we employ subword embeddings
and a Recurrent Neural Network architecture to build a single model capable of
learning to parse addresses from multiple countries at the same time while
taking into account the difference in languages and address formatting systems.
We achieved accuracies around 99 % on the countries used for training with no
pre-processing nor post-processing needed. We explore the possibility of
transferring the address parsing knowledge obtained by training on some
countries' addresses to others with no further training in a zero-shot transfer
learning setting. We achieve good results for 80 % of the countries (33 out of
41), almost 50 % of which (20 out of 41) is near state-of-the-art performance.
In addition, we propose an open-source Python implementation of our trained
models.
- Abstract(参考訳): アドレス解析は、街路名や郵便番号などのアドレスを構成するセグメントを識別することから成り立っている。
レコードリンクのようなタスクで重要であるため、アドレス解析は多くのテクニックでアプローチされている。
ニューラルネットワークの手法は、アドレス解析のための新しい最先端技術を定義した。
このアプローチは顕著な結果をもたらしたが、以前の研究は、あるソース国からのアドレスのアドレス解析を達成するためにニューラルネットワークを適用することのみに焦点を当てていた。
本稿では,言語やアドレスフォーマッティングシステムの違いを考慮しつつ,複数の国から同時にアドレスを解析できる単一モデルを構築するために,サブワード埋め込みと再帰ニューラルネットワークアーキテクチャを採用する手法を提案する。
事前処理も後処理も必要とせず,訓練に使用する国で約99%の精度を達成した。
ゼロショット転校学習環境において、ある国の住所の訓練により得られた住所解析知識を、それ以上の訓練を受けずに他国に移す可能性を検討する。
我が国の80 % (41 点中33 点中 50 % (41 点中 20 点) は最先端性能に近い。
さらに、トレーニングされたモデルのPython実装をオープンソースで提案する。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Methods for Matching English Language Addresses [1.2930673139458417]
我々は、英語のアドレス対のマッチングとミスマッチを生成するためのフレームワークを形式化する。
アドレスマッチングを自動的に行うための様々な手法を評価する。
論文 参考訳(メタデータ) (2024-03-14T10:39:14Z) - Deepparse : An Extendable, and Fine-Tunable State-Of-The-Art Library for
Parsing Multinational Street Addresses [0.0]
本稿では、LGPL-3.0ライセンス下でPythonのオープンソースで拡張可能で、微調整可能なアドレス解析ソリューションであるDeepparseについて述べる。
任意の言語で書かれたアドレスを解析し、任意のアドレス標準を使用することができる。
ライブラリは、カスタムアドレスを生成するために、新しいデータによる微調整をサポートする。
論文 参考訳(メタデータ) (2023-11-20T15:37:33Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - Multinational Address Parsing: A Zero-Shot Evaluation [0.3211619859724084]
アドレス解析は、通り名や郵便番号などのアドレスを構成するセグメントを識別する。
ニューラルネットワークに関するこれまでの研究は、単一のソース国からのアドレスを解析することだけに重点を置いていた。
本稿では,ある国の住所における深層学習モデルの訓練によって得られたアドレス解析知識を他国に移管する可能性について考察する。
論文 参考訳(メタデータ) (2021-12-07T21:40:43Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Deep Contextual Embeddings for Address Classification in E-commerce [0.03222802562733786]
インドのような発展途上国のEコマース顧客は、発送先を入力している間、固定フォーマットに従わない傾向にある。
アドレスの言語を理解することは必須であり、出荷を遅延なくルーティングできる。
自然言語処理(NLP)の最近の進歩からモチベーションを導き,顧客アドレスを理解するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-06T19:06:34Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。