論文の概要: Maps Search Misspelling Detection Leveraging Domain-Augmented Contextual
Representations
- arxiv url: http://arxiv.org/abs/2108.06842v1
- Date: Sun, 15 Aug 2021 23:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:27:18.813288
- Title: Maps Search Misspelling Detection Leveraging Domain-Augmented Contextual
Representations
- Title(参考訳): 文脈表現を用いた地図検索ミススペル検出
- Authors: Yutong Li
- Abstract要約: 独立したミススペル検出器を構築して修正する前に提供することで、スペルやその他の検索コンポーネントに多くのメリットをもたらすことができる。
深層学習の急速な発展とBERTologyのような文脈表現学習の大幅な進歩により、ノイズチャネルアーキテクチャに関連する手作りの機能を必要とせずに、まともなミススペル検出器を構築することは、より使いやすくなっている。
本稿では,最も基本的なLSTMから単一ドメイン拡張細調整BERTまで,ミススペル検出のためのモデルの4段階を設計する。
- 参考スコア(独自算出の注目度): 4.619541348328937
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building an independent misspelling detector and serve it before correction
can bring multiple benefits to speller and other search components, which is
particularly true for the most commonly deployed noisy-channel based speller
systems. With rapid development of deep learning and substantial advancement in
contextual representation learning such as BERTology, building a decent
misspelling detector without having to rely on hand-crafted features associated
with noisy-channel architecture becomes more-than-ever accessible. However
BERTolgy models are trained with natural language corpus but Maps Search is
highly domain specific, would BERTology continue its success. In this paper we
design 4 stages of models for misspeling detection ranging from the most basic
LSTM to single-domain augmented fine-tuned BERT. We found for Maps Search in
our case, other advanced BERTology family model such as RoBERTa does not
necessarily outperform BERT, and a classic cross-domain fine-tuned full BERT
even underperforms a smaller single-domain fine-tuned BERT. We share more
findings through comprehensive modeling experiments and analysis, we also
briefly cover the data generation algorithm breakthrough.
- Abstract(参考訳): 独立したミススペル検出器を構築し、修正前にそれを提供することは、スペラーや他の検索コンポーネントに複数の利点をもたらす可能性がある。
深層学習の急速な発展とBERTologyのような文脈表現学習の大幅な進歩により、ノイズチャネルアーキテクチャに関連する手作りの機能を必要とせずに、まともなミススペル検出器を構築することは、より使いやすくなっている。
しかし、BERTolgyモデルは自然言語コーパスで訓練されているが、Maps Searchは非常にドメイン固有であり、BERTologyは成功し続けるだろう。
本稿では,最も基本的なLSTMから単一ドメイン拡張細調整BERTまで,誤り検出のためのモデルの4段階を設計する。
我々の場合、マップ検索では、RoBERTaのような他の高度なBERTologyファミリモデルはBERTを必ずしも上回りませんし、古典的なクロスドメインファインチューニングフルBERTはより小さな単一ドメインファインチューニングBERTを下回ります。
包括的なモデリング実験と分析を通じてさらに多くの知見を共有し、データ生成アルゴリズムのブレークスルーについても簡単に紹介する。
関連論文リスト
- Ontology Enhanced Claim Detection [1.0878040851637998]
文に基づくクレーム検出のためのオントロジー強化モデルを提案する。
ClaimBusterとNewsClaimsデータセットのクレーム検出を行うために,BERT文の埋め込みで知識ベースを融合した。
我々のアプローチは、他の統計的およびニューラルネットワークモデルと比較して、これらの小さなアンバランスなデータセットで最も良い結果を示した。
論文 参考訳(メタデータ) (2024-02-19T16:50:58Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - Diagnosing BERT with Retrieval Heuristics [8.299945169799793]
バニラBERT」は、既存の検索アルゴリズムよりも広いマージンで優れていることが示されている。
本稿では,最近提案された公理的データセット解析手法を用いる。
BERTは、最近リリースされた大規模Webコーパスにアドホックなトピックを適用すれば、どの公理にも従わないことが分かる。
論文 参考訳(メタデータ) (2022-01-12T13:11:17Z) - BERTMap: A BERT-based Ontology Alignment System [24.684912604644865]
BERTMapは、教師なし設定と半教師なし設定の両方をサポートすることができる。
BERTMapは、主要なシステムであるLogMapやAMLよりもよく機能する。
論文 参考訳(メタデータ) (2021-12-05T21:08:44Z) - Finding the Winning Ticket of BERT for Binary Text Classification via
Adaptive Layer Truncation before Fine-tuning [7.797987384189306]
BERTをベースとしたモデルのサイズの異なるモデルを構築し、それらの予測を8つのバイナリ分類タスクで比較する。
結果は、完全なモデルよりもパフォーマンスが良い小さなサブネットワークが存在することを示している。
論文 参考訳(メタデータ) (2021-11-22T02:22:47Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Can BERT Dig It? -- Named Entity Recognition for Information Retrieval
in the Archaeology Domain [3.928604516640069]
ArcheoBERTje はオランダの考古学文献で事前訓練されたBERTモデルである。
完全なコレクション上でのBERTモデルの語彙と出力の違いを分析する。
論文 参考訳(メタデータ) (2021-06-14T20:26:19Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。