論文の概要: CharacterBERT: Reconciling ELMo and BERT for Word-Level Open-Vocabulary
Representations From Characters
- arxiv url: http://arxiv.org/abs/2010.10392v3
- Date: Sat, 31 Oct 2020 21:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 06:54:26.389346
- Title: CharacterBERT: Reconciling ELMo and BERT for Word-Level Open-Vocabulary
Representations From Characters
- Title(参考訳): characterBERT: Word-Level Open-Vocabulary Representation from CharactersのためのELMoとBERTの再構成
- Authors: Hicham El Boukkouri, Olivier Ferret, Thomas Lavergne, Hiroshi Noji,
Pierre Zweigenbaum, Junichi Tsujii
- Abstract要約: 本稿では,ワードピースシステムを完全に廃止し,代わりに文字を照会して全単語を表現するために,文字CNNモジュールを使用するBERTの新たな変種を提案する。
この新モデルにより,様々な医療領域タスクにおけるBERTの性能が向上すると同時に,頑健で単語レベルのオープン語彙表現が実現できることが示唆された。
- 参考スコア(独自算出の注目度): 14.956626084281638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the compelling improvements brought by BERT, many recent
representation models adopted the Transformer architecture as their main
building block, consequently inheriting the wordpiece tokenization system
despite it not being intrinsically linked to the notion of Transformers. While
this system is thought to achieve a good balance between the flexibility of
characters and the efficiency of full words, using predefined wordpiece
vocabularies from the general domain is not always suitable, especially when
building models for specialized domains (e.g., the medical domain). Moreover,
adopting a wordpiece tokenization shifts the focus from the word level to the
subword level, making the models conceptually more complex and arguably less
convenient in practice. For these reasons, we propose CharacterBERT, a new
variant of BERT that drops the wordpiece system altogether and uses a
Character-CNN module instead to represent entire words by consulting their
characters. We show that this new model improves the performance of BERT on a
variety of medical domain tasks while at the same time producing robust,
word-level and open-vocabulary representations.
- Abstract(参考訳): BERTによる魅力的な改善により、近年の表現モデルはトランスフォーマーアーキテクチャをメインビルディングブロックとして採用し、結果としてトランスフォーマーの概念と本質的に関連付けられていないにもかかわらず、ワードピースのトークン化システムを継承した。
このシステムは文字の柔軟性とフルワードの効率のバランスが良いと考えられているが、特に専門領域(医学領域など)のモデルを構築する場合、一般的なドメインから予め定義された語彙を使用することは必ずしも適切ではない。
さらに、ワードピースのトークン化を採用すると、焦点を単語レベルからサブワードレベルにシフトし、概念的により複雑で、実際は便利ではない。
これらの理由から,ワードピースシステムを完全に廃止し,キャラクタcnnモジュールを使用してキャラクタをコンサルティングする,新しい変種であるキャラクタバートを提案する。
この新モデルは,様々な医療領域タスクにおけるBERTの性能を向上させると同時に,頑健で単語レベルのオープン語彙表現を実現する。
関連論文リスト
- From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - Trading Syntax Trees for Wordpieces: Target-oriented Opinion Words
Extraction with Wordpieces and Aspect Enhancement [33.66973706499751]
State-of-the-the-the-art target-oriented opinion word extract (TOWE)モデルは、通常、単語レベルで動作するBERTベースのテキストエンコーダを使用する。
これらの手法は、GCN(Graph Convolutional Network)で限られたゲインを実現し、BERTワードピースの使用が困難である。
この作業は、メソッドのアーキテクチャからGCNコンポーネントを完全に取り除き、BERTワードピースの構文木を交換する。
論文 参考訳(メタデータ) (2023-05-18T15:22:00Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Char2Subword: Extending the Subword Embedding Space Using Robust
Character Compositionality [24.80654159288458]
本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。
私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。
我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-10-24T01:08:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。