論文の概要: NFLAT: Non-Flat-Lattice Transformer for Chinese Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2205.05832v1
- Date: Thu, 12 May 2022 01:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 12:20:13.462675
- Title: NFLAT: Non-Flat-Lattice Transformer for Chinese Named Entity Recognition
- Title(参考訳): nflat:中国のエンティティ認識のための非フラットラティストランス
- Authors: Shuang Wu, Xiaoning Song, Zhenhua Feng, Xiaojun Wu
- Abstract要約: 我々は,計算コストとメモリコストを効果的に削減する新しい語彙拡張手法であるInterFormerを提唱する。
FLATと比較して「単語文字」と「単語」の不要な注意計算を減らす
これにより、メモリ使用量が約50%削減され、ネットワークトレーニングのためにより広範なレキシコンやより高いバッチを使用することができる。
- 参考スコア(独自算出の注目度): 39.308634515653914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, FLAT has achieved great success in Chinese Named Entity Recognition
(NER). This method achieves lexical enhancement by constructing a flat lattice,
which mitigates the difficulties posed by blurred word boundaries and the lack
of word semantics. To this end, FLAT uses the position information of the
starting and ending characters to connect the matching words. However, this
method is likely to match more words when dealing with long texts, resulting in
very long input sequences. Therefore, it increases the memory used by
self-attention and computational costs. To deal with this issue, we advocate a
novel lexical enhancement method, InterFormer, that effectively reduces the
amount of computational and memory costs by constructing the non-flat-lattice.
Furthermore, we implement a complete model, namely NFLAT, for the Chinese NER
task. NFLAT decouples lexicon fusion and context feature encoding. Compared
with FLAT, it reduces unnecessary attention calculations in "word-character"
and "word-word". This reduces the memory usage by about 50\% and can use more
extensive lexicons or higher batches for network training. The experimental
results obtained on several well-known benchmarks demonstrate the superiority
of the proposed method over the state-of-the-art character-word hybrid models.
- Abstract(参考訳): 近年、FLATは中国の名前付きエンティティ認識(NER)において大きな成功を収めている。
単語境界の曖昧さや単語意味論の欠如によって生じる困難を緩和する平坦な格子を構築することで語彙強調を実現する。
この目的のためにFLATは、開始文字と終了文字の位置情報を用いて一致する単語を接続する。
しかし、この方法は長いテキストを扱う際により多くの単語にマッチし、非常に長い入力シーケンスをもたらす。
したがって、セルフアテンションと計算コストで使用されるメモリを増加させる。
この問題に対処するため,非平坦格子を構成することで計算コストとメモリコストを効果的に削減する新しい語彙拡張手法であるInterFormerを提案する。
さらに,中国NERタスクのための完全モデルであるNFLATを実装した。
NFLATはレキシコン融合とコンテキスト特徴符号化を分離する。
FLATと比較して、"word-character" と "word-word" の不要な注意計算を減らす。
これにより、メモリ使用量が約50\%削減され、ネットワークトレーニングにより広範なレキシコンやバッチを使用することができる。
いくつかの有名なベンチマークで得られた実験結果は、最先端の文字-単語ハイブリッドモデルよりも提案手法が優れていることを示している。
関連論文リスト
- Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Learn Your Tokens: Word-Pooled Tokenization for Language Modeling [11.40976202290724]
言語モデルは典型的には、トークンを長い文字列に組み合わせた決定論的手作業で、テキストをサブワードにトークン化する。
最近のコンテクスト長の圧縮と制限の試みは,単語境界を完全に無視するが有用である。
本稿では,単語境界を利用して単語表現にバイト/文字をプールする「学習する」方式について考察する。
論文 参考訳(メタデータ) (2023-10-17T23:34:39Z) - Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - Semantic Tokenizer for Enhanced Natural Language Processing [32.605667552915854]
本稿では,セマンティクスを用いて語彙構成を行う新しいトークン化手法を提案する。
トークン化子は、語彙で表されるワードフォームの数を2倍以上にする。
論文 参考訳(メタデータ) (2023-04-24T19:33:41Z) - Efficient CNN with uncorrelated Bag of Features pooling [98.78384185493624]
Bag of Features (BoF)は、畳み込み層の複雑さを軽減するために最近提案されている。
本稿では,BoFプーリング上に構築した手法を用いて,学習辞書の項目が非冗長であることを保証する。
提案した戦略は、BoFの効率的な変種を生成し、追加のパラメータを使わずにその性能をさらに向上させる。
論文 参考訳(メタデータ) (2022-09-22T09:00:30Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Char2Subword: Extending the Subword Embedding Space Using Robust
Character Compositionality [24.80654159288458]
本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。
私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。
我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-10-24T01:08:28Z) - Improving Chinese Segmentation-free Word Embedding With Unsupervised
Association Measure [3.9435648520559177]
時間情報とポイントワイド関連性(PATI)という,新しい教師なしの関連尺度を通じてn-gramの語彙を収集することにより,セグメンテーションフリーな単語埋め込みモデルを提案する
提案手法では, コーパスからより潜時的な情報を利用して, 中国語テキストなどの未分類言語データに, より強い凝集度を持つn-gramを埋め込み, より有効なn-gramを収集できる。
論文 参考訳(メタデータ) (2020-07-05T13:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。