論文の概要: Transformers are Short Text Classifiers: A Study of Inductive Short Text
Classifiers on Benchmarks and Real-world Datasets
- arxiv url: http://arxiv.org/abs/2211.16878v3
- Date: Fri, 11 Aug 2023 11:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 17:41:23.180362
- Title: Transformers are Short Text Classifiers: A Study of Inductive Short Text
Classifiers on Benchmarks and Real-world Datasets
- Title(参考訳): トランスフォーマーは短文分類器である:ベンチマークと実世界のデータセットにおける帰納的短文分類器の研究
- Authors: Fabian Karl and Ansgar Scherp
- Abstract要約: 短いテキスト分類は自然言語処理において重要かつ困難な側面である。
最近の短いテキスト研究において、従来のテキスト分類のためのステート・オブ・ザ・アート(SOTA)手法は明らかにされていない。
我々の実験は、短いテキスト分類タスクにおいて、トランスフォーマーがSOTA精度を達成することを明らかに示している。
- 参考スコア(独自算出の注目度): 2.9443230571766854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short text classification is a crucial and challenging aspect of Natural
Language Processing. For this reason, there are numerous highly specialized
short text classifiers. However, in recent short text research, State of the
Art (SOTA) methods for traditional text classification, particularly the pure
use of Transformers, have been unexploited. In this work, we examine the
performance of a variety of short text classifiers as well as the top
performing traditional text classifier. We further investigate the effects on
two new real-world short text datasets in an effort to address the issue of
becoming overly dependent on benchmark datasets with a limited number of
characteristics. Our experiments unambiguously demonstrate that Transformers
achieve SOTA accuracy on short text classification tasks, raising the question
of whether specialized short text techniques are necessary.
- Abstract(参考訳): 短いテキスト分類は自然言語処理において重要かつ困難な側面である。
このため、高度に専門化された短文分類器が多数存在する。
しかし、近年のショートテキスト研究では、伝統的なテキスト分類、特にトランスフォーマーの純粋使用のための最先端技術(sota)手法が未解明となっている。
本研究では,様々な短文分類器の性能と,従来のテキスト分類器の最高性能について検討する。
さらに、限られた特徴を持つベンチマークデータセットに過度に依存する問題に対処するために、2つの新しい実世界の短文データセットの効果について検討する。
本実験は,短いテキスト分類タスクにおいてトランスフォーマーがsoma精度を達成することをあいまいに証明し,特殊な短いテキスト技術が必要かどうかという疑問を提起する。
関連論文リスト
- Exploring the Limitations of Detecting Machine-Generated Text [29.06307663406079]
テキストの書き方の違いを判定し,機械が生成したテキストを検出するための分類性能について批判的に検討する。
分類器は文体的変化やテキストの複雑さの違いに非常に敏感であることがわかった。
さらに,検出システムは,複雑なテキストに対して高い性能を保ちながら,読みやすいテキストを誤分類することが特に考えられる。
論文 参考訳(メタデータ) (2024-06-16T21:02:02Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Selective Text Augmentation with Word Roles for Low-Resource Text
Classification [3.4806267677524896]
異なる単語はテキスト分類において異なる役割を担い、それによってテキスト拡張の適切な役割を戦略的に選択することができる。
本研究では,まず,テキスト中の単語とテキストカテゴリの関係を,統計的相関と意味的類似性の観点から同定する。
本稿では,STA(Selective Text Augmentation)と呼ばれる新たな拡張手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T08:13:11Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - What Have Been Learned & What Should Be Learned? An Empirical Study of
How to Selectively Augment Text for Classification [0.0]
本稿では,STA(Selective Text Augmentation)を用いてテキストを選択的に拡張する手法を提案する。
4つの英語と中国語のテキスト分類ベンチマークデータセットの実験により、STAは非選択的なテキスト拡張法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2021-09-01T04:03:11Z) - A Case Study of Spanish Text Transformations for Twitter Sentiment
Analysis [1.9694608733361543]
感性分析は、与えられたテキストの極性、すなわちその正性または負性を決定するテキストマイニングタスクである。
テキスト表現の新しい形式は、スラング、正書法、文法的誤りを用いてテキストを分析するための新しい課題を示す。
論文 参考訳(メタデータ) (2021-06-03T17:24:31Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。