論文の概要: Not all layers are equally as important: Every Layer Counts BERT
- arxiv url: http://arxiv.org/abs/2311.02265v2
- Date: Tue, 7 Nov 2023 21:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 18:18:34.253291
- Title: Not all layers are equally as important: Every Layer Counts BERT
- Title(参考訳): すべての層が等しく重要であるわけではない: すべての層がbertを数える
- Authors: Lucas Georges Gabriel Charpentier and David Samuel
- Abstract要約: 本稿では,データ効率のよい事前学習に適したトランスフォーマーアーキテクチャを新たに導入する。
私たちのアプローチでは、各トランス層が処理対象の前のレイヤの出力を選択することができます。
- 参考スコア(独自算出の注目度): 5.121744234312891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel modification of the transformer architecture,
tailored for the data-efficient pretraining of language models. This aspect is
evaluated by participating in the BabyLM challenge, where our solution won both
the strict and strict-small tracks. Our approach allows each transformer layer
to select which outputs of previous layers to process. The empirical results
verify the potential of this simple modification and show that not all layers
are equally as important.
- Abstract(参考訳): 本稿では,言語モデルのデータ効率のよい事前学習のために調整されたトランスフォーマーアーキテクチャの新規な修正を提案する。
この側面はBabyLMチャレンジに参加して評価され、厳密なトラックと厳密なトラックの両方でソリューションが勝利した。
我々のアプローチでは、各トランスフォーマー層が処理する前のレイヤの出力を選択することができる。
実験結果は、この単純な修正の可能性を検証し、すべての層が等しく重要であるわけではないことを示す。
関連論文リスト
- Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Compressing Large Language Models by Streamlining the Unimportant Layer [13.03815753589673]
大規模言語モデル(LLM)は、様々な自然言語のタスクやドメインに広く適用されている。
本稿では,レイヤプルーニングと層置換という2つの部分からなるLCM-Streamlineを提案する。
提案手法であるLCM-Streamlineは,従来の最先端(SOTA)モデルプルーニング法より優れていた。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - Jump to Conclusions: Short-Cutting Transformers With Linear
Transformations [76.04020332394467]
トランスフォーマーベースの言語モデル(LM)は、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
線形変換を用いた簡単な鋳造法を提案する。
提案手法は,隠れ表現を検査する一般的な手法よりも正確な近似を導出することを示す。
論文 参考訳(メタデータ) (2023-03-16T16:10:16Z) - On Robust Learning from Noisy Labels: A Permutation Layer Approach [53.798757734297986]
本稿では、深層ニューラルネットワーク(DNN)のトレーニング過程を動的に校正するPermLLと呼ばれる置換層学習手法を提案する。
本稿では,PermLLの2つの変種について述べる。一方はモデルの予測に置換層を適用し,他方は与えられた雑音ラベルに直接適用する。
我々はPermLLを実験的に検証し、実際のデータセットと合成データセットの両方で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-11-29T03:01:48Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - ProgressiveSpinalNet architecture for FC layers [0.0]
ディープラーニングモデルでは、FC層は、以前の層から学んだ特徴に基づいて入力の分類に最も重要な役割を有する。
本稿では,これらのパラメータを大幅に削減し,性能を向上することを目的とする。
動機はSpinalNetや他の生物学的アーキテクチャからインスピレーションを得ています。
論文 参考訳(メタデータ) (2021-03-21T11:54:50Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Of Non-Linearity and Commutativity in BERT [8.295319152986316]
BERTの層間相互作用について検討し,層間構造が何らかの階層構造を示す一方で,ファジィな方法で特徴を抽出することを示した。
その結果、BERTは層可換性に対する誘導バイアスを持っていることが示唆され、これは主にスキップ接続によるものである。
論文 参考訳(メタデータ) (2021-01-12T15:29:38Z) - BERT's output layer recognizes all hidden layers? Some Intriguing
Phenomena and a simple way to boost BERT [53.63288887672302]
変換器による双方向表現(BERT)は多くの自然言語処理(NLP)タスクで大きな成功を収めている。
その結果,BERTの各層を直接入力として取り込むことで,BERTの出力層が入力文を再構築できることが判明した。
本稿では,BERTの性能向上のための非常に単純な手法を提案する。
論文 参考訳(メタデータ) (2020-01-25T13:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。