論文の概要: ABB-BERT: A BERT model for disambiguating abbreviations and contractions
- arxiv url: http://arxiv.org/abs/2207.04008v1
- Date: Fri, 8 Jul 2022 16:54:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 13:42:28.094477
- Title: ABB-BERT: A BERT model for disambiguating abbreviations and contractions
- Title(参考訳): ABB-BERT: 短縮と縮小の曖昧化のためのBERTモデル
- Authors: Prateek Kacker, Andi Cupallari, Aswin Gridhar Subramanian and Nimit
Jain
- Abstract要約: 省略や縮小は、様々な領域にわたるテキストで一般的に見られる。
既存のスペル補正モデルは、単語中の文字の減少が多いため、拡張を扱うには適していない。
本稿では,省略や縮約を含むあいまいな言語を扱うBERTモデルであるABB-BERTを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abbreviations and contractions are commonly found in text across different
domains. For example, doctors' notes contain many contractions that can be
personalized based on their choices. Existing spelling correction models are
not suitable to handle expansions because of many reductions of characters in
words. In this work, we propose ABB-BERT, a BERT-based model, which deals with
an ambiguous language containing abbreviations and contractions. ABB-BERT can
rank them from thousands of options and is designed for scale. It is trained on
Wikipedia text, and the algorithm allows it to be fine-tuned with little
compute to get better performance for a domain or person. We are publicly
releasing the training dataset for abbreviations and contractions derived from
Wikipedia.
- Abstract(参考訳): 略語と縮約語は、異なる領域にまたがるテキストによく見られる。
例えば、医師のノートには、選択に基づいてパーソナライズできる多くの収縮が含まれている。
既存の綴り補正モデルは、単語の文字数を減らすために拡張を扱うのに適していない。
本研究では,省略や縮約を含むあいまいな言語を扱うBERTモデルであるABB-BERTを提案する。
ABB-BERTは何千ものオプションからランク付けでき、スケールするために設計されている。
wikipediaのテキストでトレーニングされ、アルゴリズムはドメインや人のパフォーマンスを改善するために、わずかな計算で微調整することができる。
ウィキペディアから派生した略語と縮語のためのトレーニングデータセットを公開しています。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Token Classification for Disambiguating Medical Abbreviations [0.0]
省略は避けられないが、医療テキストの重要な部分である。
標準化されたマッピングシステムの欠如は、曖昧な省略を困難かつ時間を要するタスクにする。
論文 参考訳(メタデータ) (2022-10-05T18:06:49Z) - Probing for the Usage of Grammatical Number [103.8175326220026]
私たちは、モデルが実際に使用しているエンコーディングを見つけようと試み、使用量ベースの探索設定を導入しました。
BERTの文法的数値のエンコード方法と,このエンコーディングを用いて数値合意課題を解決する方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-04-19T11:59:52Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - How BPE Affects Memorization in Transformers [36.53583838619203]
Byte-Pair QA (BPE) で学習した単語語彙のサイズは、トレーニングデータを記憶するための標準トランスフォーマーモデルの能力と傾向に大きな影響を与えることを示す。
我々は、この効果は、BPE語彙が大きくなるにつれて起こるシーケンスの長さの減少によって生じると推測する。
論文 参考訳(メタデータ) (2021-10-06T14:01:56Z) - Structured abbreviation expansion in context [12.000998471674649]
我々は,短縮メッセージの正規化および拡張バージョンを回復するために,文脈内でのアドホック略語を逆転させる作業を検討する。
この問題は、アドホックの略語が意図的であり、元の単語とはかなり異なる可能性があるという点において、綴りの修正とは関係があるが、異なるものである。
論文 参考訳(メタデータ) (2021-10-04T01:22:43Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - BERT-based Acronym Disambiguation with Multiple Training Strategies [8.82012912690778]
Acronym disambiguation (AD) タスクは、与えられた文中の曖昧な頭字語を正しく拡張することを目的としている。
BERTと動的負のサンプル選択を含むいくつかのトレーニング戦略を組み込んだバイナリ分類モデルを提案する。
SciAD実験は,提案手法の有効性を示し,SDU@AAAI-21共有課題2:Acronym Disambiguationのスコアが1位となった。
論文 参考訳(メタデータ) (2021-02-25T05:40:21Z) - Char2Subword: Extending the Subword Embedding Space Using Robust
Character Compositionality [24.80654159288458]
本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。
私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。
我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-10-24T01:08:28Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。