論文の概要: Few Dimensions are Enough: Fine-tuning BERT with Selected Dimensions Revealed Its Redundant Nature
- arxiv url: http://arxiv.org/abs/2504.04966v1
- Date: Mon, 07 Apr 2025 11:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:34.542000
- Title: Few Dimensions are Enough: Fine-tuning BERT with Selected Dimensions Revealed Its Redundant Nature
- Title(参考訳): 選択次元を持つ細調整BERTは、その冗長な性質を明らかにした
- Authors: Shion Fukuhata, Yoshinobu Kano,
- Abstract要約: 特定のタスクのための微調整BERTモデルが一般的である。
最終的なレイヤの出力の一部を選択して、新たに生成された完全に接続されたレイヤに入力することが一般的である。
最終レイヤのどの部分が選択されるべきか、レイヤの各次元がどの情報を保持するべきかは、まだ不明である。
- 参考スコア(独自算出の注目度): 1.1970409518725493
- License:
- Abstract: When fine-tuning BERT models for specific tasks, it is common to select part of the final layer's output and input it into a newly created fully connected layer. However, it remains unclear which part of the final layer should be selected and what information each dimension of the layers holds. In this study, we comprehensively investigated the effectiveness and redundancy of token vectors, layers, and dimensions through BERT fine-tuning on GLUE tasks. The results showed that outputs other than the CLS vector in the final layer contain equivalent information, most tasks require only 2-3 dimensions, and while the contribution of lower layers decreases, there is little difference among higher layers. We also evaluated the impact of freezing pre-trained layers and conducted cross-fine-tuning, where fine-tuning is applied sequentially to different tasks. The findings suggest that hidden layers may change significantly during fine-tuning, BERT has considerable redundancy, enabling it to handle multiple tasks simultaneously, and its number of dimensions may be excessive.
- Abstract(参考訳): 特定のタスクに対して細調整されたBERTモデルでは、最終的なレイヤの出力の一部を選択して、新たに生成された完全に接続されたレイヤに入力することが一般的である。
しかし、最終レイヤのどの部分が選択されるべきか、レイヤの各次元がどの情報を保持するべきかは、まだ不明である。
本研究では, トークンベクトル, 層, 次元の有効性と冗長性について, GLUEタスクにおけるBERTの微調整により総合的に検討した。
その結果,最終層におけるCLSベクトル以外の出力には等価な情報が含まれており,ほとんどのタスクは2~3次元しか必要とせず,下位層の寄与は減少するが,上位層の差はほとんどないことがわかった。
また, 既訓練層を凍結させ, クロスファインチューニングを行い, 各種タスクに微調整を順次適用した。
その結果,隠蔽層は微調整中に著しく変化し,BERTは冗長性が大きく,複数のタスクを同時に処理でき,寸法が過剰になる可能性が示唆された。
関連論文リスト
- Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Not all layers are equally as important: Every Layer Counts BERT [5.121744234312891]
本稿では,データ効率のよい事前学習に適したトランスフォーマーアーキテクチャを新たに導入する。
私たちのアプローチでは、各トランス層が処理対象の前のレイヤの出力を選択することができます。
論文 参考訳(メタデータ) (2023-11-03T23:08:50Z) - Improving Reliability of Fine-tuning with Block-wise Optimisation [6.83082949264991]
ファインタニングは知識を伝達することでドメイン固有のタスクに取り組むのに使うことができる。
本稿では,事前学習したモデルの層群を重み付けするブロックワイズ最適化機構を提案する。
提案されたアプローチは、頻繁に使用されるデータセットであるTf_flowerでテストされる。
論文 参考訳(メタデータ) (2023-01-15T16:20:18Z) - TrimBERT: Tailoring BERT for Trade-offs [6.068076825261616]
BERT-Baseにおける中間層数の削減は,下流タスクの微調整精度の低下を最小限に抑えることを示す。
さらに、自己アテンション層における全てのソフトマックス操作を、計算的にシンプルな代替品に置き換えることで、2つの重要なボトルネックを緩和する。
論文 参考訳(メタデータ) (2022-02-24T23:06:29Z) - Layerwise Optimization by Gradient Decomposition for Continual Learning [78.58714373218118]
ディープニューラルネットワークは、様々な領域で最先端の超人的パフォーマンスを実現します。
タスクを逐次学習する場合、ネットワークは「破滅的忘れ」と呼ばれる過去のタスクの知識を忘れやすい。
論文 参考訳(メタデータ) (2021-05-17T01:15:57Z) - Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers [72.38919601150175]
高オーバーラップオブジェクトをセグメント化するBilayer Convolutional Network (BCNet)を提案する。
BCNetはオクルージョンオブジェクト(Occluder)を検出し、ボトムGCN層は部分的にOccludedインスタンス(Occludee)を推論する
論文 参考訳(メタデータ) (2021-03-23T06:25:42Z) - Undivided Attention: Are Intermediate Layers Necessary for BERT? [2.8935588665357077]
下流タスクのネットワーク性能における中間層の重要性について検討する。
BERT-BASEの中間層数の削減とアーキテクチャの変更により,下流タスクの微調整精度の低下が最小限に抑えられることを示す。
論文 参考訳(メタデータ) (2020-12-22T08:46:14Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - BERT's output layer recognizes all hidden layers? Some Intriguing
Phenomena and a simple way to boost BERT [53.63288887672302]
変換器による双方向表現(BERT)は多くの自然言語処理(NLP)タスクで大きな成功を収めている。
その結果,BERTの各層を直接入力として取り込むことで,BERTの出力層が入力文を再構築できることが判明した。
本稿では,BERTの性能向上のための非常に単純な手法を提案する。
論文 参考訳(メタデータ) (2020-01-25T13:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。