論文の概要: Comparison Study Between Token Classification and Sequence
Classification In Text Classification
- arxiv url: http://arxiv.org/abs/2211.13899v1
- Date: Fri, 25 Nov 2022 05:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:19:43.630236
- Title: Comparison Study Between Token Classification and Sequence
Classification In Text Classification
- Title(参考訳): テキスト分類におけるトークン分類とシーケンス分類の比較検討
- Authors: Amir Jafari
- Abstract要約: 自然言語処理タスクには教師なしの機械学習技術が適用されており、GLUEなどのベンチマークを上回る成功を収めている。
言語モデルの構築はひとつの言語でよい結果に近づき、分類、要約、生成などの複数のNLPタスクにボックスモデルから適用することができる。
- 参考スコア(独自算出の注目度): 0.45687771576879593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised Machine Learning techniques have been applied to Natural
Language Processing tasks and surpasses the benchmarks such as GLUE with great
success. Building language models approach achieves good results in one
language and it can be applied to multiple NLP task such as classification,
summarization, generation and etc as an out of box model. Among all the of the
classical approaches used in NLP, the masked language modeling is the most
used. In general, the only requirement to build a language model is presence of
the large corpus of textual data. Text classification engines uses a variety of
models from classical and state of art transformer models to classify texts for
in order to save costs. Sequence Classifiers are mostly used in the domain of
text classification. However Token classifiers also are viable candidate models
as well. Sequence Classifiers and Token Classifier both tend to improve the
classification predictions due to the capturing the context information
differently. This work aims to compare the performance of Sequence Classifier
and Token Classifiers and evaluate each model on the same set of data. In this
work, we are using a pre-trained model as the base model and Token Classifier
and Sequence Classier heads results of these two scoring paradigms with be
compared..
- Abstract(参考訳): 自然言語処理タスクには教師なしの機械学習技術が適用されており、GLUEなどのベンチマークを上回る成功を収めている。
言語モデルの構築は一つの言語でよい結果を得ることができ、分類、要約、生成などの複数のNLPタスクをアウトオブボックスモデルとして適用することができる。
NLPで使われている古典的なアプローチの中で、マスク付き言語モデリングが最も使われている。
一般的に、言語モデルを構築する唯一の要件は、大量のテキストデータのコーパスの存在である。
テキスト分類エンジンは、コストを節約するためにテキストを分類するために、古典的および最先端のトランスフォーマーモデルから様々なモデルを使用する。
シーケンス分類器は主にテキスト分類の領域で使用される。
しかしトークン分類器も実行可能な候補モデルである。
シーケンス分類器とトークン分類器は、コンテキスト情報が異なるため、分類予測を改善する傾向がある。
本研究の目的は、シーケンス分類器とトークン分類器の性能を比較し、同じデータセット上で各モデルを評価することである。
本研究では,事前学習したモデルをベースモデルとして使用し,これらの2つのスコア付けパラダイムの結果をトークン分類器とシーケンス分類器で比較する。
.
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Anomaly Detection using Ensemble Classification and Evidence Theory [62.997667081978825]
本稿では,アンサンブル分類とエビデンス理論を用いた新しい検出手法を提案する。
固体アンサンブル分類器を構築するためのプール選択戦略が提示される。
我々は異常検出手法の不確実性を利用する。
論文 参考訳(メタデータ) (2022-12-23T00:50:41Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - Perturbations and Subpopulations for Testing Robustness in Token-Based
Argument Unit Recognition [6.502694770864571]
Argument Unit Recognition and Classification は、テキストから引数単位を識別し、それをpro または against として分類することを目的としている。
このタスクのためにシステムを開発する際に必要となる設計上の選択の1つは、分類単位が何かである。
従来の研究では、トークンレベルの微調整言語モデルは、文章を直接訓練するよりも、文章を分類する上でより堅牢な結果をもたらすことが示唆されている。
当初この主張を導いた研究を再現し、トークンベースのシステムが文ベースのシステムと比較して何を学んだかをさらに調査する。
論文 参考訳(メタデータ) (2022-09-29T13:44:28Z) - DIRECTOR: Generator-Classifiers For Supervised Language Modeling [27.86870968048833]
現在の言語モデルは難易度は低いが、結果として生じる世代は依然として有毒な反応、反復性、矛盾に悩まされている。
我々は,各出力トークンに対して,言語モデリングと分類ヘッドを併用した統一型ジェネレータからなる新しいアーキテクチャであるc Directorを導入する。
論文 参考訳(メタデータ) (2022-06-15T17:44:08Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Interpretable Sequence Classification via Discrete Optimization [26.899228003677138]
医療監視や侵入検知といった多くの応用において、早期分類は介入を促すために不可欠である。
本研究では、進化する観測トレースから早期分類を好む配列分類器を学習する。
我々の分類器は解釈可能であり, 説明, 反実的推論, 人為的ループ修正を行う。
論文 参考訳(メタデータ) (2020-10-06T15:31:07Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。