論文の概要: Bag-of-Words vs. Sequence vs. Graph vs. Hierarchy for Single- and
Multi-Label Text Classification
- arxiv url: http://arxiv.org/abs/2204.03954v1
- Date: Fri, 8 Apr 2022 09:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 12:41:02.493128
- Title: Bag-of-Words vs. Sequence vs. Graph vs. Hierarchy for Single- and
Multi-Label Text Classification
- Title(参考訳): 単一ラベルと複数ラベルテキストの分類におけるバガ-オブ-ワード対シーケンス対グラフ対階層
- Authors: Andor Diera, Bao Xin Lin, Bhakti Khera, Tim Meuser, Tushar Singhal,
Lukas Galke, Ansgar Scherp
- Abstract要約: 本稿では,Bag of Words を用いたシンプルな多層パーセプトロン (MLP) が,最近のグラフベースモデル TextGCN と HeteGCN をインダクティブテキスト分類設定で上回っていることを示す。
我々はまた、最近の逐次的なgMLPモデルとaMLPモデルよりも優れた、マルチラベル分類に関する独自の実験も行っています。
- 参考スコア(独自算出の注目度): 2.7092484410365967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph neural networks have triggered a resurgence of graph-based text
classification methods, defining today's state of the art. We show that a
simple multi-layer perceptron (MLP) using a Bag of Words (BoW) outperforms the
recent graph-based models TextGCN and HeteGCN in an inductive text
classification setting and is comparable with HyperGAT in single-label
classification. We also run our own experiments on multi-label classification,
where the simple MLP outperforms the recent sequential-based gMLP and aMLP
models. Moreover, we fine-tune a sequence-based BERT and a lightweight
DistilBERT model, which both outperform all models on both single-label and
multi-label settings in most datasets. These results question the importance of
synthetic graphs used in modern text classifiers. In terms of parameters,
DistilBERT is still twice as large as our BoW-based wide MLP, while graph-based
models like TextGCN require setting up an $\mathcal{O}(N^2)$ graph, where $N$
is the vocabulary plus corpus size.
- Abstract(参考訳): グラフニューラルネットワークは、今日の最先端技術を定義するグラフベースのテキスト分類方法を復活させた。
本稿では,Bag of Words (BoW) を用いたシンプルな多層パーセプトロン (MLP) が,最近のグラフベースモデルである TextGCN と HeteGCN をインダクティブテキスト分類設定で上回り,シングルラベル分類では HyperGAT に匹敵する性能を示した。
また,マルチラベル分類の実験も行っており,単純なmlpは最近の逐次型gmlpおよびamlpモデルよりも優れている。
さらに、シーケンスベースのbertと軽量ディチルベルトモデルを微調整し、ほとんどのデータセットにおいて、シングルラベル設定とマルチラベル設定の両方で全てのモデルよりも優れています。
これらの結果は、現代テキスト分類器で使われる合成グラフの重要性に疑問を呈する。
パラメータの面では、 DistilBERT は BoW ベースのワイド MLP の2倍の大きさであり、TextGCN のようなグラフベースのモデルでは $\mathcal{O}(N^2)$ graph をセットアップする必要があります。
関連論文リスト
- Leveraging Annotator Disagreement for Text Classification [3.6625157427847963]
テキスト分類では、データセットが複数のアノテータによってアノテートされた場合でも、モデルトレーニングに1つのマジョリティラベルのみを使用するのが一般的である。
本稿では,アノテータの不一致を利用してテキスト分類を行う3つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-26T06:46:53Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - Evaluating Unsupervised Text Classification: Zero-shot and
Similarity-based Approaches [0.6767885381740952]
類似性に基づくアプローチは、テキスト文書表現とクラス記述表現の類似性に基づいてインスタンスを分類しようとする。
ゼロショットテキスト分類手法は、未知クラスの適切なラベルをテキスト文書に割り当てることで、トレーニングタスクから得られる知識を一般化することを目的としている。
本稿では, 類似度に基づくゼロショットとゼロショットのアプローチを, 未確認クラスのテキスト分類のために体系的に評価する。
論文 参考訳(メタデータ) (2022-11-29T15:14:47Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - CLLD: Contrastive Learning with Label Distance for Text Classificatioin [0.6299766708197883]
コントラストクラスを学習するためのCLLD(Contrastive Learning with Label Distance)を提案する。
CLLDは、ラベルの割り当てに繋がる微妙な違いの中で、柔軟性を保証する。
実験の結果,学習したラベル距離は,クラス間の対立性を緩和することが示唆された。
論文 参考訳(メタデータ) (2021-10-25T07:07:14Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - Cooperative Bi-path Metric for Few-shot Learning [50.98891758059389]
数発の分類問題の調査に2つの貢献をしている。
本稿では,従来の教師あり学習法において,ベースクラスで訓練されたシンプルで効果的なベースラインについて報告する。
本稿では, 基礎クラスと新しいクラス間の相関を利用して, 精度の向上を図る, 分類のための協調的二経路計量を提案する。
論文 参考訳(メタデータ) (2020-08-10T11:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。