論文の概要: CNN-Trans-Enc: A CNN-Enhanced Transformer-Encoder On Top Of Static BERT
representations for Document Classification
- arxiv url: http://arxiv.org/abs/2209.06344v1
- Date: Tue, 13 Sep 2022 23:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:16:07.430768
- Title: CNN-Trans-Enc: A CNN-Enhanced Transformer-Encoder On Top Of Static BERT
representations for Document Classification
- Title(参考訳): CNN-Trans-Enc: 文書分類のための静的BERT表現のトップのCNN強化トランスフォーマーエンコーダ
- Authors: Charaf Eddine Benarab, Shenglin Gui
- Abstract要約: BERTはテキスト分類タスクにおいて顕著な結果を得る。
近年の研究では、異なる層が異なる言語的特徴に焦点を当てていることが示唆されている。
固定BERT上でトレーニングしたCNN拡張トランスフォーマーエンコーダモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BERT achieves remarkable results in text classification tasks, it is yet not
fully exploited, since only the last layer is used as a representation output
for downstream classifiers. The most recent studies on the nature of linguistic
features learned by BERT, suggest that different layers focus on different
kinds of linguistic features. We propose a CNN-Enhanced Transformer-Encoder
model which is trained on top of fixed BERT $[CLS]$ representations from all
layers, employing Convolutional Neural Networks to generate QKV feature maps
inside the Transformer-Encoder, instead of linear projections of the input into
the embedding space. CNN-Trans-Enc is relatively small as a downstream
classifier and doesn't require any fine-tuning of BERT, as it ensures an
optimal use of the $[CLS]$ representations from all layers, leveraging
different linguistic features with more meaningful, and generalizable QKV
representations of the input. Using BERT with CNN-Trans-Enc keeps $98.9\%$ and
$94.8\%$ of current state-of-the-art performance on the IMDB and SST-5 datasets
respectably, while obtaining new state-of-the-art on YELP-5 with $82.23$
($8.9\%$ improvement), and on Amazon-Polarity with $0.98\%$ ($0.2\%$
improvement) (K-fold Cross Validation on a 1M sample subset from both
datasets). On the AG news dataset CNN-Trans-Enc achieves $99.94\%$ of the
current state-of-the-art, and achieves a new top performance with an average
accuracy of $99.51\%$ on DBPedia-14.
Index terms: Text Classification, Natural Language Processing, Convolutional
Neural Networks, Transformers, BERT
- Abstract(参考訳): BERTはテキスト分類タスクにおいて顕著な結果を得るが、下流分類器の表現出力として最後の層のみが使用されるため、完全には利用されない。
BERTが学んだ言語的特徴の性質に関する最新の研究は、異なる階層が異なる種類の言語的特徴に焦点を当てていることを示唆している。
本稿では,すべての層からBERT $[CLS]$表現をトレーニングしたCNN拡張トランスフォーマーエンコーダモデルを提案する。このモデルでは,入力の線形投影ではなく,畳み込みニューラルネットワークを用いてトランスフォーマエンコーダ内のQKV特徴写像を生成する。
cnn-trans-encは下流の分類器としては比較的小さく、全ての層から$[cls]$表現を最適に使用し、より意味があり、入力のqkv表現を一般化できるため、bertの微調整を必要としない。
CNN-Trans-EncでBERTを使用することで、IMDBとSST-5データセットの現在の最先端パフォーマンスの980.9\%と944.8\%を、YELP-5の822.23$$8.9\%$改善)とAmazon-Polarityの0.98\%$0.2\%改善(両方のデータセットから1MサンプルサブセットのK-fold Cross Validation)を尊重することができる。
ag newsデータセットでは、cnn-trans-encは現在の最先端の99.94\%$を達成し、dbpedia-14で平均99.51\%$で新しいトップパフォーマンスを達成している。
インデックス用語:テキスト分類、自然言語処理、畳み込みニューラルネットワーク、変換器、BERT
関連論文リスト
- You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Explaining Translationese: why are Neural Classifiers Better and what do
they Learn? [17.10685977194571]
BERTは、従来の手動機能エンジニアリングベースのアプローチよりも優れたパフォーマンスを実現している。
BERT学習と手作り機能の利用は,手作り機能を用いてSVMのレベルで実行可能であることを示す。
また、手作りの機能によってキャプチャされた情報は、BERTが学習したサブセットに過ぎないこともわかりました。
論文 参考訳(メタデータ) (2022-10-24T16:43:28Z) - SegTransVAE: Hybrid CNN -- Transformer with Regularization for medical
image segmentation [0.0]
本稿では,SegTransVAEという新しいネットワークを提案する。
SegTransVAEはエンコーダ-デコーダアーキテクチャに基づいて構築されており、ネットワークへの可変オートエンコーダ(VAE)ブランチでトランスフォーマーを利用する。
最近導入されたデータセットの評価によると、SegTransVAEはDice Scoreと95%$-Haudorff Distanceで過去の手法より優れている。
論文 参考訳(メタデータ) (2022-01-21T08:02:55Z) - Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文 参考訳(メタデータ) (2022-01-18T07:17:40Z) - Rethinking Query, Key, and Value Embedding in Vision Transformer under
Tiny Model Constraints [3.7660066212240753]
ビジョントランス (ViT) はコンピュータビジョン分野において支配的なモデルである。
セマンティック$Q、K$、および$V$埋め込みの十分な考慮は、性能低下につながるかもしれない。
我々は、$Q$、$K$、$V$埋め込みの3種類の構造を提案する。
論文 参考訳(メタデータ) (2021-11-19T02:54:57Z) - A Novel Sleep Stage Classification Using CNN Generated by an Efficient
Neural Architecture Search with a New Data Processing Trick [4.365107026636095]
本稿では,畳み込みニューラルネットワーク(CNN)を用いた新しいデータ処理手法を用いて,効率的な5ステップの分類手法を提案する。
我々は、遺伝的アルゴリズム(GA)NASGを最大限に活用して、最高のCNNアーキテクチャを探索する。
我々は,データ処理トリックの収束性を検証するとともに,従来のCNNの性能をそのトリックの前後で比較する。
論文 参考訳(メタデータ) (2021-10-27T10:36:52Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。
従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。
ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文 参考訳(メタデータ) (2021-05-27T09:27:42Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z) - Deep learning for gravitational-wave data analysis: A resampling
white-box approach [62.997667081978825]
我々は、LIGO検出器からの単一干渉計データを用いて、畳み込みニューラルネットワーク(CNN)を用いて、コンパクトなバイナリコレッセンスにおける重力波(GW)信号を検出する。
CNNはノイズを検出するのに非常に正確だが、GW信号のリコールに十分な感度がないため、CNNはGWトリガの生成よりもノイズ低減に適している。
論文 参考訳(メタデータ) (2020-09-09T03:28:57Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。