論文の概要: Are We Really Making Much Progress in Text Classification? A Comparative
Review
- arxiv url: http://arxiv.org/abs/2204.03954v5
- Date: Sun, 4 Jun 2023 17:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 05:33:56.772613
- Title: Are We Really Making Much Progress in Text Classification? A Comparative
Review
- Title(参考訳): テキスト分類は本当に大きく進歩しているのか?
比較レビュー
- Authors: Lukas Galke, Andor Diera, Bao Xin Lin, Bhakti Khera, Tim Meuser,
Tushar Singhal, Fabian Karl, Ansgar Scherp
- Abstract要約: 本研究では,単一ラベルと複数ラベルのテキスト分類のための手法をレビューし,比較する。
その結果、最近提案されたグラフベースおよび階層ベースの手法は、事前学習された言語モデルよりも優れていることが判明した。
- 参考スコア(独自算出の注目度): 2.579878570919875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study reviews and compares methods for single-label and multi-label text
classification, categorized into bag-of-words, sequence-based, graph-based, and
hierarchical methods. The comparison aggregates results from the literature
over five single-label and seven multi-label datasets and complements them with
new experiments. The findings reveal that all recently proposed graph-based and
hierarchy-based methods fail to outperform pre-trained language models and
sometimes perform worse than standard machine learning methods like a
multilayer perceptron on a bag-of-words. To assess the true scientific progress
in text classification, future work should thoroughly test against strong
bag-of-words baselines and state-of-the-art pre-trained language models.
- Abstract(参考訳): 本研究は,単音節と複数音節のテキスト分類の手法をレビュー・比較し,その手法を単語のバガオブワード,シーケンスベース,グラフベース,階層的手法に分類した。
この比較は、5つのシングルラベルと7つのマルチラベルデータセットの文献を集計し、それらを新しい実験で補完する。
その結果、最近提案されたグラフベースおよび階層ベース手法はすべて、事前学習された言語モデルよりも優れておらず、時として、多層パーセプトロンのような標準的な機械学習手法よりもパフォーマンスが悪くなることが判明した。
テキスト分類の真の科学的進歩を評価するために、将来の研究は、強固な単語ベースラインと最先端の事前学習言語モデルに対して徹底的にテストされるべきである。
関連論文リスト
- Leveraging Annotator Disagreement for Text Classification [3.6625157427847963]
テキスト分類では、データセットが複数のアノテータによってアノテートされた場合でも、モデルトレーニングに1つのマジョリティラベルのみを使用するのが一般的である。
本稿では,アノテータの不一致を利用してテキスト分類を行う3つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-26T06:46:53Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - Evaluating Unsupervised Text Classification: Zero-shot and
Similarity-based Approaches [0.6767885381740952]
類似性に基づくアプローチは、テキスト文書表現とクラス記述表現の類似性に基づいてインスタンスを分類しようとする。
ゼロショットテキスト分類手法は、未知クラスの適切なラベルをテキスト文書に割り当てることで、トレーニングタスクから得られる知識を一般化することを目的としている。
本稿では, 類似度に基づくゼロショットとゼロショットのアプローチを, 未確認クラスのテキスト分類のために体系的に評価する。
論文 参考訳(メタデータ) (2022-11-29T15:14:47Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - CLLD: Contrastive Learning with Label Distance for Text Classificatioin [0.6299766708197883]
コントラストクラスを学習するためのCLLD(Contrastive Learning with Label Distance)を提案する。
CLLDは、ラベルの割り当てに繋がる微妙な違いの中で、柔軟性を保証する。
実験の結果,学習したラベル距離は,クラス間の対立性を緩和することが示唆された。
論文 参考訳(メタデータ) (2021-10-25T07:07:14Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - Cooperative Bi-path Metric for Few-shot Learning [50.98891758059389]
数発の分類問題の調査に2つの貢献をしている。
本稿では,従来の教師あり学習法において,ベースクラスで訓練されたシンプルで効果的なベースラインについて報告する。
本稿では, 基礎クラスと新しいクラス間の相関を利用して, 精度の向上を図る, 分類のための協調的二経路計量を提案する。
論文 参考訳(メタデータ) (2020-08-10T11:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。