論文の概要: UniParma @ SemEval 2021 Task 5: Toxic Spans Detection Using
CharacterBERT and Bag-of-Words Model
- arxiv url: http://arxiv.org/abs/2103.09645v1
- Date: Wed, 17 Mar 2021 13:39:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 16:13:04.366854
- Title: UniParma @ SemEval 2021 Task 5: Toxic Spans Detection Using
CharacterBERT and Bag-of-Words Model
- Title(参考訳): UniParma @SemEval 2021 Task 5: CharacterBERT と Bag-of-Words モデルを用いた毒性スパーン検出
- Authors: Akbar Karimi, Leonardo Rossi, Andrea Prati
- Abstract要約: 我々は、最先端の事前学習言語モデル(characterbert)と従来の単語の袋技術を組み合わせて、この問題に取り組む。
characterBERTは、単語文字に基づいて特徴を抽出するために使用される。
一方、Bag-of-wordsメソッドは、頻繁に使用される有毒な単語がそれに応じてラベル付けされるようにすることで、さらに改善します。
- 参考スコア(独自算出の注目度): 2.4634850020708616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the ever-increasing availability of digital information, toxic content
is also on the rise. Therefore, the detection of this type of language is of
paramount importance. We tackle this problem utilizing a combination of a
state-of-the-art pre-trained language model (CharacterBERT) and a traditional
bag-of-words technique. Since the content is full of toxic words that have not
been written according to their dictionary spelling, attendance to individual
characters is crucial. Therefore, we use CharacterBERT to extract features
based on the word characters. It consists of a CharacterCNN module that learns
character embeddings from the context. These are, then, fed into the well-known
BERT architecture. The bag-of-words method, on the other hand, further improves
upon that by making sure that some frequently used toxic words get labeled
accordingly.
- Abstract(参考訳): デジタル情報の可用性がますます高まる中、有害なコンテンツも増えている。
したがって、この種の言語の検出は最重要事項である。
我々は、最先端の事前学習言語モデル(characterbert)と従来の単語の袋技術を組み合わせて、この問題に取り組む。
内容は辞書の綴りで書かれていない有毒な言葉でいっぱいなので、個々の文字への出席が不可欠である。
そこで,キャラクタバートを用いて単語キャラクタに基づく特徴抽出を行う。
コンテキストから文字の埋め込みを学習する characterCNN モジュールで構成されている。
これらは、よく知られたBERTアーキテクチャに供給される。
一方、バグ・オブ・ワードズ法では、頻繁に使われる有毒な単語が適切にラベル付けされるようにすることで、さらに改善されている。
関連論文リスト
- Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - What do tokens know about their characters and how do they know it? [3.8254443661593633]
サブワードトークン化スキームを用いた事前学習型言語モデルは,文字レベルの情報を必要とする様々な言語タスクで成功することを示す。
これらのモデルが文字レベル情報を強固にエンコードし、一般に、より大きなモデルがそのタスクにおいてより優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-06T13:27:26Z) - Signal in Noise: Exploring Meaning Encoded in Random Character Sequences
with Character-Aware Language Models [0.7454831343436739]
ランダムな文字列からなる$n$-grams、または$garble$は、現在ある言語内外における単語の意味を研究するための新しい文脈を提供する。
characterBERT を用いて,巨大コーパス,既存言語,擬似単語の埋め込みを研究することにより,モデルの高次元埋め込み空間の軸を同定し,これらのクラスを$n$-gram で分離する。
論文 参考訳(メタデータ) (2022-03-15T13:48:38Z) - MarkBERT: Marking Word Boundaries Improves Chinese BERT [67.53732128091747]
MarkBERTは、語彙を漢字として保持し、連続した単語間の境界マーカーを挿入する。
従来の単語ベースのBERTモデルと比較して、MarkBERTはテキスト分類、キーワード認識、意味的類似性タスクにおいて精度が向上している。
論文 参考訳(メタデータ) (2022-03-12T08:43:06Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Models In a Spelling Bee: Language Models Implicitly Learn the Character
Composition of Tokens [22.55706811131828]
事前訓練された言語モデルの埋め込み層を探索する。
モデルが単語全体とサブワードトークンの内部文字構成を学習することを示す。
論文 参考訳(メタデータ) (2021-08-25T11:48:05Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Char2Subword: Extending the Subword Embedding Space Using Robust
Character Compositionality [24.80654159288458]
本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。
私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。
我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-10-24T01:08:28Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - Detecting New Word Meanings: A Comparison of Word Embedding Models in
Spanish [1.5356167668895644]
意味的ネオロジズム(英: Semantic neologisms, SN)は、その形態を維持しつつ、新しい意味を持つ単語である。
SNを半自動で検出するために,以下の戦略の組み合わせを実装したシステムを開発した。
本稿では,Word2Vec,Sense2Vec,FastTextという単語埋め込みモデルについて検討する。
論文 参考訳(メタデータ) (2020-01-12T21:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。