論文の概要: MaxPoolBERT: Enhancing BERT Classification via Layer- and Token-Wise Aggregation
- arxiv url: http://arxiv.org/abs/2505.15696v2
- Date: Tue, 14 Oct 2025 10:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 14:23:56.748181
- Title: MaxPoolBERT: Enhancing BERT Classification via Layer- and Token-Wise Aggregation
- Title(参考訳): MaxPoolBERT:レイヤおよびToken-WiseアグリゲーションによるBERT分類の強化
- Authors: Maike Behrendt, Stefan Sylvius Wagner, Stefan Harmeling,
- Abstract要約: MaxPoolBERTは、新たな事前トレーニングやモデルサイズの大幅な増加を必要とせずに、BERTの分類精度を向上させる。
GLUEベンチマークの実験では、MaxPoolBERTは低リソースタスクにおける標準的なBERTベースモデルよりも一貫して優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 9.80818509541133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The [CLS] token in BERT is commonly used as a fixed-length representation for classification tasks, yet prior work has shown that both other tokens and intermediate layers encode valuable contextual information. In this work, we study lightweight extensions to BERT that refine the [CLS] representation by aggregating information across layers and tokens. Specifically, we explore three modifications: (i) max-pooling the [CLS] token across multiple layers, (ii) enabling the [CLS] token to attend over the entire final layer using an additional multi-head attention (MHA) layer, and (iii) combining max-pooling across the full sequence with MHA. Our approach, called MaxPoolBERT, enhances BERT's classification accuracy (especially on low-resource tasks) without requiring new pre-training or significantly increasing model size. Experiments on the GLUE benchmark show that MaxPoolBERT consistently achieves a better performance than the standard BERT base model on low resource tasks of the GLUE benchmark.
- Abstract(参考訳): BERTの[CLS]トークンは、分類タスクの固定長表現として一般的に使用されるが、以前の研究は、他のトークンと中間層の両方が貴重なコンテキスト情報をエンコードしていることを示している。
本研究では,レイヤやトークン間で情報を集約することで,[CLS]表現を洗練させるBERTの軽量拡張について検討する。
具体的には3つの修正を探索する。
i) 複数の層にわたる[CLS]トークンの最大プール。
二 追加のマルチヘッドアテンション(MHA)層を用いて、[CLS]トークンが最終層全体への参加を可能にすること。
3)全列の最大プーリングとMHAを組み合わせること。
我々のアプローチはMaxPoolBERTと呼ばれ、新たな事前学習やモデルサイズの増加を必要とせず、BERTの分類精度(特に低リソースタスク)を向上させる。
GLUEベンチマークの実験では、MaxPoolBERTはGLUEベンチマークの低リソースタスクにおける標準BERTベースモデルよりも一貫して優れたパフォーマンスを実現している。
関連論文リスト
- A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification [2.0069888187253615]
生産LLMシステムは、安全と他の分類の重いステップのために、しばしば別々のモデルに依存している。
代わりに、私たちはLLMによって既に支払われた計算を再利用し、隠れた状態の軽量プローブを訓練し、生成に使用する同じ前方パスでラベルを予測する。
論文 参考訳(メタデータ) (2026-01-19T18:40:29Z) - ESMC: MLLM-Based Embedding Selection for Explainable Multiple Clustering [79.69917150582633]
MLLM(Multi-modal large language model)は、ユーザ主導のクラスタリングを実現するために利用することができる。
本手法はまず,MLLMのテキストトークンの隠蔽状態が対応する特徴と強く関連していることを明らかにする。
また、擬似ラベル学習を付加した軽量クラスタリングヘッドを採用し、クラスタリング精度を大幅に向上させた。
論文 参考訳(メタデータ) (2025-11-30T04:36:51Z) - SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models [81.74999702045339]
マルチレベル最適輸送(MultiLevelOT)は、普遍的なクロストケナイザー知識蒸留のための最適な輸送を促進する新しいアプローチである。
本手法は,教師と生徒のロジット分布をトークンレベルとシーケンスレベルの両方で整列する。
トークンレベルでは、MultiLevelOTはグローバルとローカルの両方の情報を統合する。
論文 参考訳(メタデータ) (2024-12-19T04:51:06Z) - Unlocking Tokens as Data Points for Generalization Bounds on Larger Language Models [79.70436109672599]
LLaMA2-70Bほどの大きさの大規模言語モデルの非空一般化境界を導出する。
我々の研究は、実際にデプロイされ、高品質なテキストを生成するモデルに対する最初の非空き境界を達成する。
論文 参考訳(メタデータ) (2024-07-25T16:13:58Z) - A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks [7.72751543977484]
本研究は, 寒冷開始シナリオにおけるアクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性について検討する。
私たちの主な貢献は、より堅牢な微調整パイプラインであるDoTCALの提案です。
本評価では,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなど,BERTベースの埋め込みと他の一般的なテキスト表現パラダイムとの対比を行った。
論文 参考訳(メタデータ) (2024-07-24T13:50:21Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Breaking the Token Barrier: Chunking and Convolution for Efficient Long
Text Classification with BERT [0.0]
変換器ベースのモデル、特にBERTは様々なNLPタスクの研究を推進している。
BERTモデルは512トークンの最大トークン制限に制限されているため、長い入力で実際に適用するのは簡単ではない。
本稿では,任意の事前学習したモデルを任意に長文で推論できるような,比較的単純なBanilla BERTアーキテクチャであるChunkBERTを提案する。
論文 参考訳(メタデータ) (2023-10-31T15:41:08Z) - Multi-CLS BERT: An Efficient Alternative to Traditional Ensembling [34.88128747535637]
BERTモデルの組み立ては精度を大幅に向上させるが、計算とメモリフットプリントのコストがかかる。
CLSに基づく予測タスクのための新しいアンサンブル手法であるMulti-BERTを提案する。
GLUEとSuperGLUEの実験では、Multi-BERTは全体的な精度と信頼性の両方を確実に改善することを示した。
論文 参考訳(メタデータ) (2022-10-10T23:15:17Z) - Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask
Training [55.43088293183165]
近年の研究では、BERTのような事前学習言語モデル(PLM)には、元のPLMと同じような変換学習性能を持つマッチングワークが含まれていることが示されている。
本稿では, BERTworksがこれらの研究で示された以上の可能性を秘めていることを示す。
我々は、サブネットワークの普遍的な転送可能性を維持することを目的として、事前学習タスクのモデル重みよりも二項マスクを訓練する。
論文 参考訳(メタデータ) (2022-04-24T08:42:47Z) - Pyramid-BERT: Reducing Complexity via Successive Core-set based Token
Selection [23.39962989492527]
BERTのようなトランスフォーマーベースの言語モデルは、様々なNLPタスクで最先端を達成しているが、計算的に禁止されている。
本稿では,従来の使用法を,理論的な結果によって正当化されたemコアセットベースのトークン選択法で置き換えるピラミッド-BERTを提案する。
コアセットベースのトークン選択技術により、高価な事前トレーニングを回避でき、空間効率の良い微調整が可能となり、長いシーケンス長を扱うのに適している。
論文 参考訳(メタデータ) (2022-03-27T19:52:01Z) - Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文 参考訳(メタデータ) (2022-01-18T07:17:40Z) - Layer-wise Guided Training for BERT: Learning Incrementally Refined
Document Representations [11.46458298316499]
本研究では, 細管BERTの構造化手法を提案する。
具体的には、大規模マルチラベルテキスト分類(LMTC)に焦点を当てる。
我々のアプローチは、特定の階層レベルからラベルを予測するために、特定のBERT層をガイドする。
論文 参考訳(メタデータ) (2020-10-12T14:56:22Z) - Regularized Densely-connected Pyramid Network for Salient Instance
Segmentation [73.17802158095813]
我々は、エンドツーエンドの有能なインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。
ディープネットワークにおけるリッチな特徴階層をよりよく活用するために、正規化された高密度接続を提案する。
マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。
論文 参考訳(メタデータ) (2020-08-28T00:13:30Z) - BERT's output layer recognizes all hidden layers? Some Intriguing
Phenomena and a simple way to boost BERT [53.63288887672302]
変換器による双方向表現(BERT)は多くの自然言語処理(NLP)タスクで大きな成功を収めている。
その結果,BERTの各層を直接入力として取り込むことで,BERTの出力層が入力文を再構築できることが判明した。
本稿では,BERTの性能向上のための非常に単純な手法を提案する。
論文 参考訳(メタデータ) (2020-01-25T13:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。