論文の概要: Comparative Study of Long Document Classification
- arxiv url: http://arxiv.org/abs/2111.00702v1
- Date: Mon, 1 Nov 2021 04:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 14:04:54.194331
- Title: Comparative Study of Long Document Classification
- Title(参考訳): 長期文書分類の比較研究
- Authors: Vedangi Wagh, Snehal Khandve, Isha Joshi, Apurva Wani, Geetanjali
Kale, Raviraj Joshi
- Abstract要約: 我々は、標準的な機械学習アプローチを用いて、長い文書分類を再考する。
単純なNaive Bayesから6つの標準テキスト分類データセット上の複雑なBERTまで、さまざまなアプローチをベンチマークする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The amount of information stored in the form of documents on the internet has
been increasing rapidly. Thus it has become a necessity to organize and
maintain these documents in an optimum manner. Text classification algorithms
study the complex relationships between words in a text and try to interpret
the semantics of the document. These algorithms have evolved significantly in
the past few years. There has been a lot of progress from simple machine
learning algorithms to transformer-based architectures. However, existing
literature has analyzed different approaches on different data sets thus making
it difficult to compare the performance of machine learning algorithms. In this
work, we revisit long document classification using standard machine learning
approaches. We benchmark approaches ranging from simple Naive Bayes to complex
BERT on six standard text classification datasets. We present an exhaustive
comparison of different algorithms on a range of long document datasets. We
re-iterate that long document classification is a simpler task and even basic
algorithms perform competitively with BERT-based approaches on most of the
datasets. The BERT-based models perform consistently well on all the datasets
and can be blindly used for the document classification task when the
computations cost is not a concern. In the shallow model's category, we suggest
the usage of raw BiLSTM + Max architecture which performs decently across all
the datasets. Even simpler Glove + Attention bag of words model can be utilized
for simpler use cases. The importance of using sophisticated models is clearly
visible in the IMDB sentiment dataset which is a comparatively harder task.
- Abstract(参考訳): インターネット上の文書形式で保存される情報の量は急速に増加している。
そのため、これらの文書を最適に整理・維持することが求められている。
テキスト分類アルゴリズムは、テキスト内の単語間の複雑な関係を研究し、文書の意味論を解釈しようとする。
これらのアルゴリズムはここ数年で大きく進化した。
単純な機械学習アルゴリズムからトランスフォーマーベースのアーキテクチャまで、多くの進歩がありました。
しかし、既存の文献は異なるデータセットに対する異なるアプローチを分析しており、機械学習アルゴリズムの性能を比較することは困難である。
本研究では,機械学習の標準手法を用いて,長い文書分類を再考する。
単純なNaive Bayesから6つの標準テキスト分類データセット上の複雑なBERTまでのアプローチをベンチマークする。
本稿では,長い文書データセットに対して異なるアルゴリズムを徹底的に比較する。
長い文書分類は単純なタスクであり、基本的なアルゴリズムでさえ、ほとんどのデータセットにおいてBERTベースのアプローチと競合的に実行されます。
BERTベースのモデルはすべてのデータセットで一貫して良好に動作し、計算コストが懸念されない場合、文書分類タスクに盲目的に使用できる。
浅層モデルのカテゴリでは、すべてのデータセットで適切に機能する生のBiLSTM + Maxアーキテクチャの使用を提案する。
さらに単純なGlove + Attention bag of words modelは、より単純なユースケースに利用できる。
高度なモデルを使用することの重要性は、比較的難しいタスクであるIMDBの感情データセットで明らかである。
関連論文リスト
- A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - Document-Level Abstractive Summarization [0.0]
非常に長いテキストの自動要約を改善するために,トランスフォーマー技術がいかに効果的かを検討する。
より小さなチャンクを処理して文書全体の要約を生成するコストを削減できる新しい検索強化手法を提案する。
論文 参考訳(メタデータ) (2022-12-06T14:39:09Z) - Contextualization for the Organization of Text Documents Streams [0.0]
テキスト文書のストリームを探索するストリーム解析手法について,いくつかの実験を行った。
テキストドキュメントのフラックスを探索し、分析し、整理するために、動的アルゴリズムのみを使用します。
論文 参考訳(メタデータ) (2022-05-30T22:25:40Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Efficient Classification of Long Documents Using Transformers [13.927622630633344]
様々なベースラインと多様なデータセットに対して測定された相対的有効性を評価する。
結果として、より複雑なモデルは、単純なベースラインを上回り、データセット間で一貫性のないパフォーマンスを得ることができないことがしばしば示される。
論文 参考訳(メタデータ) (2022-03-21T18:36:18Z) - Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文 参考訳(メタデータ) (2022-01-18T07:17:40Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。