論文の概要: Normalizador Neural de Datas e Endere\c{c}os
- arxiv url: http://arxiv.org/abs/2007.04300v2
- Date: Thu, 9 Jul 2020 01:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 07:50:38.242888
- Title: Normalizador Neural de Datas e Endere\c{c}os
- Title(参考訳): 常用振動子ニューラル・デ・データとエンデレc{c}os
- Authors: Gustavo Plensack and Paulo Finardi
- Abstract要約: 我々は、未設定の日付とアドレスのフォーマットを90%以上の精度で処理するアートT5のディープニューラルネットワーク状態のソリューションを提案する。
また、テキスト内のエラーをシミュレートするノイズの多いデータでこの問題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Documents of any kind present a wide variety of date and address formats, in
some cases dates can be written entirely in full or even have different types
of separators. The pattern disorder in addresses is even greater due to the
greater possibility of interchanging between streets, neighborhoods, cities and
states. In the context of natural language processing, problems of this nature
are handled by rigid tools such as ReGex or DateParser, which are efficient as
long as the expected input is pre-configured. When these algorithms are given
an unexpected format, errors and unwanted outputs happen. To circumvent this
challenge, we present a solution with deep neural networks state of art T5 that
treats non-preconfigured formats of dates and addresses with accuracy above 90%
in some cases. With this model, our proposal brings generalization to the task
of normalizing dates and addresses. We also deal with this problem with noisy
data that simulates possible errors in the text.
- Abstract(参考訳): あらゆる種類の文書には様々な日付と住所の形式があり、場合によっては日付は完全に完全あるいは異なる種類のセパレータで書かれることもある。
住所におけるパターン障害は、通り、地区、都市、州間の交流の可能性が大きいため、さらに大きい。
自然言語処理の文脈では、この性質の問題はReGexやDateParserのような厳密なツールによって処理される。
これらのアルゴリズムに予期しないフォーマットが与えられると、エラーと不要な出力が発生する。
この課題を回避するために、未設定の日付と住所のフォーマットを90%以上の精度で処理する、最先端のニューラルネットワーク技術T5のソリューションを提案する。
このモデルでは,提案手法は日付と住所を正規化するタスクに一般化をもたらす。
また、テキスト内のエラーをシミュレートするノイズの多いデータでこの問題に対処する。
関連論文リスト
- ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - A Fast Randomized Algorithm for Massive Text Normalization [26.602776972067936]
大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。
本アルゴリズムは, 単語間のジャカード類似性を利用して補正結果を提案する。
実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-06T19:18:17Z) - Sequence-to-Sequence Lexical Normalization with Multilingual
Transformers [3.3302293148249125]
現在の自然言語処理のベンチマークタスクには、非公式な日々のデジタルコミュニケーションで使用されるテキストと質的に異なるテキストが含まれている。
この不一致は、実世界のデータに基づいて微調整された場合、最先端のNLPモデルの大幅な性能劣化を引き起こした。
機械翻訳問題として,mBARTに基づく文レベルのシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2021-10-06T15:53:20Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。