論文の概要: Annotating the Tweebank Corpus on Named Entity Recognition and Building
NLP Models for Social Media Analysis
- arxiv url: http://arxiv.org/abs/2201.07281v1
- Date: Tue, 18 Jan 2022 19:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 02:13:10.956672
- Title: Annotating the Tweebank Corpus on Named Entity Recognition and Building
NLP Models for Social Media Analysis
- Title(参考訳): ソーシャルメディア分析のためのNLPモデルの構築とエンティティ認識に関するTweebank Corpusの注釈
- Authors: Hang Jiang, Yining Hua, Doug Beeferman, Deb Roy
- Abstract要約: Twitterメッセージ(つぶやき)のようなソーシャルメディアデータは、短い、騒々しく、口語的な性質のため、NLPシステムに特別な課題をもたらす。
我々は、Tweebank V2 (TB2) に基づく NER コーパスである Tweebank-NER を作成し、これらを用いて最先端の NLP モデルを訓練する。
将来のつぶやきNLP研究のために、データセットをリリースし、モデルを"既成の"方法で使用できるようにします。
- 参考スコア(独自算出の注目度): 12.871968485402084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media data such as Twitter messages ("tweets") pose a particular
challenge to NLP systems because of their short, noisy, and colloquial nature.
Tasks such as Named Entity Recognition (NER) and syntactic parsing require
highly domain-matched training data for good performance. While there are some
publicly available annotated datasets of tweets, they are all purpose-built for
solving one task at a time. As yet there is no complete training corpus for
both syntactic analysis (e.g., part of speech tagging, dependency parsing) and
NER of tweets. In this study, we aim to create Tweebank-NER, an NER corpus
based on Tweebank V2 (TB2), and we use these datasets to train state-of-the-art
NLP models. We first annotate named entities in TB2 using Amazon Mechanical
Turk and measure the quality of our annotations. We train a Stanza NER model on
the new benchmark, achieving competitive performance against other
non-transformer NER systems. Finally, we train other Twitter NLP models (a
tokenizer, lemmatizer, part of speech tagger, and dependency parser) on TB2
based on Stanza, and achieve state-of-the-art or competitive performance on
these tasks. We release the dataset and make the models available to use in an
"off-the-shelf" manner for future Tweet NLP research. Our source code, data,
and pre-trained models are available at:
\url{https://github.com/social-machines/TweebankNLP}.
- Abstract(参考訳): Twitterメッセージ(つぶやき)のようなソーシャルメディアデータは、短い、騒々しく、口語的な性質のため、NLPシステムに特別な課題をもたらす。
Named Entity Recognition (NER) や構文解析のようなタスクは、優れたパフォーマンスを得るために高度にドメインマッチングされたトレーニングデータを必要とする。
ツイートの注釈付きデータセットが公開されているが、これらはすべて一度にひとつのタスクを解決するために構築されている。
まだ、構文解析(例えば、音声タグ付け、依存性解析)とツイートのNERのための完全なトレーニングコーパスは存在しない。
本研究では、Tweebank V2(TB2)に基づくNERコーパスであるTweebank-NERを作成し、これらのデータセットを用いて最先端のNLPモデルをトレーニングする。
まず、Amazon Mechanical Turkを使ってTB2に名前付きエンティティをアノテートし、アノテーションの品質を測定します。
我々は、新しいベンチマークでStanza NERモデルをトレーニングし、他の非トランスフォーマーNERシステムとの競合性能を達成する。
最後に、他のtwitter nlpモデル(トークン、レンマタイザ、スピーチタガーの一部、依存性パーサ)をstanzaに基づいてtb2にトレーニングし、これらのタスクで最先端または競争力の高いパフォーマンスを実現します。
将来のつぶやきNLP研究のために、データセットをリリースし、モデルを"既成の"方法で使用できるようにします。
ソースコード、データ、事前学習されたモデルは、下記のとおり利用できる。
関連論文リスト
- NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset [6.633914491587503]
本稿では,Alpacaを用いた文脈検索学習データセットを提案する。
このデータセットを用いて、NERの関連するコンテキストを見つけることができるBERTモデルに基づいて、ニューラルネットワークコンテキストレトリバーをトレーニングする。
本手法は,40冊の本の第1章からなる英文データセットにおいて,NERタスクの検索ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-16T06:53:12Z) - Context-Based Tweet Engagement Prediction [0.0]
この論文は、ツイートのエンゲージメントの可能性を予測するために、コンテキスト単独がいかにうまく使われるかを調査する。
私たちはTU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。
また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:36:57Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - People and Places of Historical Europe: Bootstrapping Annotation
Pipeline and a New Corpus of Named Entities in Late Medieval Texts [0.0]
我々はチェコ語、ラテン語、ドイツ語を中心に書かれた中世後期の憲章から3.6万文の新しいNERコーパスを開発する。
我々は、既知の歴史人物や場所のリストと、未注釈の歴史的テキストのコーパスから始めることができ、情報検索技術を用いて、NER注釈コーパスを自動的にブートストラップできることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:05:01Z) - A Robust Semantic Frame Parsing Pipeline on a New Complex Twitter
Dataset [53.73316523766183]
我々は,emphOODパターンとemphOOVトークンの両方を扱えるロバストなセマンティックフレーム解析パイプラインを導入する。
また、E2Eアプリケーションを構築して、アルゴリズムの有効性をデモし、それが実際のアプリケーションで有用である理由を示す。
論文 参考訳(メタデータ) (2022-12-18T01:59:49Z) - Named Entity Recognition in Twitter: A Dataset and Analysis on
Short-Term Temporal Shifts [15.108940488494587]
我々は、Twitterで最大のソーシャルメディアプラットフォームであるNERに焦点を当て、新しいNERデータセットであるTweetNER7を構築します。
データセットは、時間をかけてツイートを慎重に分散し、代表的トレンドをベースとして構築された。
特に、分析における重要な時間的側面として、NERモデルの短期的な劣化、言語モデルを異なる期間にわたって微調整する戦略、最近ラベル付けされたデータの欠如に代わるものとしての自己ラベル付けの3つに焦点をあてる。
論文 参考訳(メタデータ) (2022-10-07T19:58:47Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。