Fugu-MT 論文翻訳(概要): Breaking the Token Barrier: Chunking and Convolution for Efficient Long Text Classification with BERT

論文の概要: Breaking the Token Barrier: Chunking and Convolution for Efficient Long Text Classification with BERT

arxiv url: http://arxiv.org/abs/2310.20558v1
Date: Tue, 31 Oct 2023 15:41:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 14:30:59.616641
Title: Breaking the Token Barrier: Chunking and Convolution for Efficient Long Text Classification with BERT
Title（参考訳）: Token Barrierを破る:BERTを用いた効率的な長文分類のためのチャンキングと畳み込み
Authors: Aman Jaiswal, Evangelos Milios
Abstract要約: 変換器ベースのモデル、特にBERTは様々なNLPタスクの研究を推進している。 BERTモデルは512トークンの最大トークン制限に制限されているため、長い入力で実際に適用するのは簡単ではない。本稿では,任意の事前学習したモデルを任意に長文で推論できるような,比較的単純なBanilla BERTアーキテクチャであるChunkBERTを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based models, specifically BERT, have propelled research in various NLP tasks. However, these models are limited to a maximum token limit of 512 tokens. Consequently, this makes it non-trivial to apply it in a practical setting with long input. Various complex methods have claimed to overcome this limit, but recent research questions the efficacy of these models across different classification tasks. These complex architectures evaluated on carefully curated long datasets perform at par or worse than simple baselines. In this work, we propose a relatively simple extension to vanilla BERT architecture called ChunkBERT that allows finetuning of any pretrained models to perform inference on arbitrarily long text. The proposed method is based on chunking token representations and CNN layers, making it compatible with any pre-trained BERT. We evaluate chunkBERT exclusively on a benchmark for comparing long-text classification models across a variety of tasks (including binary classification, multi-class classification, and multi-label classification). A BERT model finetuned using the ChunkBERT method performs consistently across long samples in the benchmark while utilizing only a fraction (6.25\%) of the original memory footprint. These findings suggest that efficient finetuning and inference can be achieved through simple modifications to pre-trained BERT models.
Abstract（参考訳）: 変換器ベースのモデル、特にBERTは様々なNLPタスクの研究を推進している。しかし、これらのモデルは最大512トークンのトークン制限に制限されている。したがって、長い入力を持つ実用的な設定でそれを適用することは自明ではない。様々な複雑な手法がこの限界を克服すると主張しているが、近年の研究は異なる分類タスクにおけるこれらのモデルの有効性を疑問視している。これらの複雑なアーキテクチャは、慎重にキュレートされた長いデータセットで評価され、単純なベースラインよりも同等または悪く実行される。本研究では,任意の事前学習したモデルの微調整を任意に長いテキストで行うことができる,ChunkBERTと呼ばれるバニラBERTアーキテクチャの比較的単純な拡張を提案する。提案手法は,チャンキングトークン表現とCNN層に基づいて,事前学習したBERTと互換性を持つ。チャンクBERTは,様々なタスク(バイナリ分類,マルチクラス分類,マルチラベル分類など)の長文分類モデルを比較するベンチマークでのみ評価する。 ChunkBERT法を用いて微調整されたBERTモデルは、ベンチマーク中の長いサンプルに対して一貫して動作し、元のメモリフットプリントの分数(6.25\%)しか利用していない。これらの結果から,事前学習したBERTモデルに簡単な修正を加えることで,効率的な微調整と推測が可能であることが示唆された。

関連論文リスト

MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)
Pyramid-BERT: Reducing Complexity via Successive Core-set based Token Selection [23.39962989492527]
BERTのようなトランスフォーマーベースの言語モデルは、様々なNLPタスクで最先端を達成しているが、計算的に禁止されている。本稿では,従来の使用法を,理論的な結果によって正当化されたemコアセットベースのトークン選択法で置き換えるピラミッド-BERTを提案する。コアセットベースのトークン選択技術により、高価な事前トレーニングを回避でき、空間効率の良い微調整が可能となり、長いシーケンス長を扱うのに適している。
論文参考訳（メタデータ） (2022-03-27T19:52:01Z)
Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。 USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文参考訳（メタデータ） (2022-01-18T07:17:40Z)
Finding the Winning Ticket of BERT for Binary Text Classification via Adaptive Layer Truncation before Fine-tuning [7.797987384189306]
BERTをベースとしたモデルのサイズの異なるモデルを構築し、それらの予測を8つのバイナリ分類タスクで比較する。結果は、完全なモデルよりもパフォーマンスが良い小さなサブネットワークが存在することを示している。
論文参考訳（メタデータ） (2021-11-22T02:22:47Z)
TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference [54.791572981834435]
既存の訓練済み言語モデル(PLM)は推論において計算コストがかかることが多い。 TR-BERT と呼ばれる PLM の推論を高速化する動的トークン削減手法を提案する。 TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。
論文参考訳（メタデータ） (2021-05-25T02:28:51Z)
BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文参考訳（メタデータ） (2020-12-31T16:34:54Z)
Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文参考訳（メタデータ） (2020-10-13T03:25:15Z)
DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文参考訳（メタデータ） (2020-04-27T17:58:05Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)
TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for Efficient Retrieval [11.923682816611716]
本稿では,効率的な検索のためのTwinBERTモデルを提案する。クエリとドキュメントをそれぞれ表現するBERTライクなエンコーダがツイン構造化されている。ドキュメントの埋め込みはオフラインでプリコンパイルされ、メモリにキャッシュされる。
論文参考訳（メタデータ） (2020-02-14T22:44:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。