論文の概要: Hierarchical Neural Network Approaches for Long Document Classification
- arxiv url: http://arxiv.org/abs/2201.06774v1
- Date: Tue, 18 Jan 2022 07:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 13:45:25.563651
- Title: Hierarchical Neural Network Approaches for Long Document Classification
- Title(参考訳): 階層型ニューラルネットワークによる長期文書分類
- Authors: Snehal Khandve, Vedangi Wagh, Apurva Wani, Isha Joshi, Raviraj Joshi
- Abstract要約: 我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
- 参考スコア(独自算出の注目度): 3.6700088931938835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text classification algorithms investigate the intricate relationships
between words or phrases and attempt to deduce the document's interpretation.
In the last few years, these algorithms have progressed tremendously.
Transformer architecture and sentence encoders have proven to give superior
results on natural language processing tasks. But a major limitation of these
architectures is their applicability for text no longer than a few hundred
words. In this paper, we explore hierarchical transfer learning approaches for
long document classification. We employ pre-trained Universal Sentence Encoder
(USE) and Bidirectional Encoder Representations from Transformers (BERT) in a
hierarchical setup to capture better representations efficiently. Our proposed
models are conceptually simple where we divide the input data into chunks and
then pass this through base models of BERT and USE. Then output representation
for each chunk is then propagated through a shallow neural network comprising
of LSTMs or CNNs for classifying the text data. These extensions are evaluated
on 6 benchmark datasets. We show that USE + CNN/LSTM performs better than its
stand-alone baseline. Whereas the BERT + CNN/LSTM performs on par with its
stand-alone counterpart. However, the hierarchical BERT models are still
desirable as it avoids the quadratic complexity of the attention mechanism in
BERT. Along with the hierarchical approaches, this work also provides a
comparison of different deep learning algorithms like USE, BERT, HAN,
Longformer, and BigBird for long document classification. The Longformer
approach consistently performs well on most of the datasets.
- Abstract(参考訳): テキスト分類アルゴリズムは、単語や句間の複雑な関係を調査し、文書の解釈を推論しようとする。
ここ数年、これらのアルゴリズムは著しく進歩した。
トランスフォーマーアーキテクチャと文エンコーダは、自然言語処理タスクにおいて優れた結果をもたらすことが証明されている。
しかし、これらのアーキテクチャの大きな制限は、数百語以上のテキストの適用性である。
本稿では,長い文書分類のための階層的転送学習手法について検討する。
提案手法では,トランスフォーマー(BERT)から事前学習したユニバーサル文エンコーダ(USE)と双方向エンコーダ(BERT)を階層的に使い,より効率的な表現を実現する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
そして、各チャンクの出力表現をLSTMまたはCNNからなる浅いニューラルネットワークを介して伝播してテキストデータを分類する。
これらの拡張は6つのベンチマークデータセットで評価される。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れていることを示す。
一方、BERT + CNN/LSTMはスタンドアローンのものと同等に動作する。
しかし、BERTの注意機構の二次的複雑さを避けるため、階層的なBERTモデルは依然として望ましい。
階層的なアプローチに加えて、この研究は、長い文書分類のためのUSE、BERT、HAN、Longformer、BigBirdといった異なるディープラーニングアルゴリズムの比較も提供する。
Longformerのアプローチは、ほとんどのデータセットで一貫してうまく機能する。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Neural Architecture Search for Sentence Classification with BERT [4.862490782515929]
計算コストが小さいだけで,現在の単一層よりも優れたアーキテクチャを見つけるために,AutoML検索を実行します。
GLUEデータセットから,様々なNLPベンチマークを用いて分類アーキテクチャを検証する。
論文 参考訳(メタデータ) (2024-03-27T13:25:43Z) - Breaking the Token Barrier: Chunking and Convolution for Efficient Long
Text Classification with BERT [0.0]
変換器ベースのモデル、特にBERTは様々なNLPタスクの研究を推進している。
BERTモデルは512トークンの最大トークン制限に制限されているため、長い入力で実際に適用するのは簡単ではない。
本稿では,任意の事前学習したモデルを任意に長文で推論できるような,比較的単純なBanilla BERTアーキテクチャであるChunkBERTを提案する。
論文 参考訳(メタデータ) (2023-10-31T15:41:08Z) - A multi-model-based deep learning framework for short text multiclass
classification with the imbalanced and extremely small data set [0.6875312133832077]
本稿では,不均衡かつ極めて小さなデータセットを持つ短文マルチクラス分類のための,マルチモデルに基づくディープラーニングフレームワークを提案する。
精度、リコール、精度、F1スコアの点で最先端のベースライン性能を維持している。
論文 参考訳(メタデータ) (2022-06-24T00:51:02Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Comparative Study of Long Document Classification [0.0]
我々は、標準的な機械学習アプローチを用いて、長い文書分類を再考する。
単純なNaive Bayesから6つの標準テキスト分類データセット上の複雑なBERTまで、さまざまなアプローチをベンチマークする。
論文 参考訳(メタデータ) (2021-11-01T04:51:51Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。