論文の概要: An Empirical Survey of Unsupervised Text Representation Methods on
Twitter Data
- arxiv url: http://arxiv.org/abs/2012.03468v1
- Date: Mon, 7 Dec 2020 06:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:51:09.939218
- Title: An Empirical Survey of Unsupervised Text Representation Methods on
Twitter Data
- Title(参考訳): twitterデータにおける教師なしテキスト表現手法に関する実証的研究
- Authors: Lili Wang, Chongyang Gao, Jason Wei, Weicheng Ma, Ruibo Liu, Soroush
Vosoughi
- Abstract要約: ノイズの多いTwitterデータ上でテキストクラスタリングを行うタスクに対して,幅広いテキスト表現手法の実験的検討を行った。
以上の結果から,より高度なモデルは必ずしもツイート上ではうまく機能せず,この分野のさらなる調査が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 8.563121067681397
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The field of NLP has seen unprecedented achievements in recent years. Most
notably, with the advent of large-scale pre-trained Transformer-based language
models, such as BERT, there has been a noticeable improvement in text
representation. It is, however, unclear whether these improvements translate to
noisy user-generated text, such as tweets. In this paper, we present an
experimental survey of a wide range of well-known text representation
techniques for the task of text clustering on noisy Twitter data. Our results
indicate that the more advanced models do not necessarily work best on tweets
and that more exploration in this area is needed.
- Abstract(参考訳): NLPの分野は近年、前例のない成果を出している。
特に、BERTのような大規模なトレーニング済みのTransformerベースの言語モデルが出現し、テキスト表現に顕著な改善が加えられた。
しかし、これらの改善がツイートのような騒がしいユーザー生成テキストに繋がるかどうかは不明だ。
本稿では,ノイズの多いTwitterデータ上でテキストクラスタリングを行うタスクに対して,広く知られたテキスト表現手法の実験的検討を行う。
以上の結果から,より高度なモデルは必ずしもツイート上ではうまく機能せず,この分野のさらなる調査が必要であることが示唆された。
関連論文リスト
- EAFormer: Scene Text Segmentation with Edge-Aware Transformers [56.15069996649572]
シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。
本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ対応変換器EAFormerを提案する。
論文 参考訳(メタデータ) (2024-07-24T06:00:33Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - The Surprisingly Straightforward Scene Text Removal Method With Gated
Attention and Region of Interest Generation: A Comprehensive Prominent Model
Analysis [0.76146285961466]
STR(Scene text removal)は、自然のシーン画像からテキストを消去するタスクである。
本稿では,シンプルなかつ極めて効果的なGated Attention(GA)手法とRerea-of-Interest Generation(RoIG)手法を紹介する。
ベンチマークデータを用いた実験結果から,提案手法は既存の最先端手法よりもほぼすべての指標で有意に優れていた。
論文 参考訳(メタデータ) (2022-10-14T03:34:21Z) - Exploiting Twitter as Source of Large Corpora of Weakly Similar Pairs
for Semantic Sentence Embeddings [3.8073142980733]
本稿では,言語に依存しない2組の非公式テキストのデータセットを構築する手法を提案する。
ツイートの返信と引用という、Twitterの本質的な強力な関連性のシグナルを利用しています。
我々のモデルは古典的セマンティックテキスト類似性を学習するだけでなく、文のペアが正確なパラフレーズではないタスクにも長けている。
論文 参考訳(メタデータ) (2021-10-05T13:21:40Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - Stacked DeBERT: All Attention in Incomplete Data for Text Classification [8.900866276512364]
変換器から双方向表現を重畳するスタックドデノナイズ(Stacked Denoising Bidirectional Representations)を提案する。
本モデルでは, 感情や意図の分類作業において, 音声テキスト誤りのあるツイートやテキストに現れる非公式/不正テキストにおいて, F1スコアが向上し, 堅牢性が向上したことを示す。
論文 参考訳(メタデータ) (2020-01-01T04:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。