論文の概要: Depth-Wise Attention (DWAtt): A Layer Fusion Method for Data-Efficient Classification
- arxiv url: http://arxiv.org/abs/2209.15168v2
- Date: Tue, 7 May 2024 16:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 20:52:38.062116
- Title: Depth-Wise Attention (DWAtt): A Layer Fusion Method for Data-Efficient Classification
- Title(参考訳): Depth-Wise Attention (DWAtt): データ効率な分類のための層融合法
- Authors: Muhammad ElNokrashy, Badr AlKhamissi, Mona Diab,
- Abstract要約: そこで本研究では,DWAtt(Depth-Wise Attention)と呼ばれる新しい層融合法を提案する。
本研究では,DWAttを基本結合型層融合法(Concat)と比較し,より深いモデルベースラインと比較する。
以上の結果から,DWAttとConcatはベースラインよりもステップ効率が高く,サンプル効率が高いことが示唆された。
- 参考スコア(独自算出の注目度): 11.730822193746826
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language Models pretrained on large textual data have been shown to encode different types of knowledge simultaneously. Traditionally, only the features from the last layer are used when adapting to new tasks or data. We put forward that, when using or finetuning deep pretrained models, intermediate layer features that may be relevant to the downstream task are buried too deep to be used efficiently in terms of needed samples or steps. To test this, we propose a new layer fusion method: Depth-Wise Attention (DWAtt), to help re-surface signals from non-final layers. We compare DWAtt to a basic concatenation-based layer fusion method (Concat), and compare both to a deeper model baseline -- all kept within a similar parameter budget. Our findings show that DWAtt and Concat are more step- and sample-efficient than the baseline, especially in the few-shot setting. DWAtt outperforms Concat on larger data sizes. On CoNLL-03 NER, layer fusion shows 3.68--9.73% F1 gain at different few-shot sizes. The layer fusion models presented significantly outperform the baseline in various training scenarios with different data sizes, architectures, and training constraints.
- Abstract(参考訳): 大規模なテキストデータに基づいて事前訓練された言語モデルは、異なる種類の知識を同時に符号化することが示されている。
伝統的に、新しいタスクやデータに適応する際には、最後のレイヤの機能のみを使用する。
我々は、深層事前訓練モデルの使用や微調整を行う際に、下流タスクに関連する中間層の特徴が深く埋もれすぎて、必要なサンプルやステップで効率的に利用できないことを主張した。
これをテストするために,DWAtt(Depth-Wise Attention)と呼ばれる新しい層融合法を提案する。
DWAttを基本的な結合ベースの層融合法(Concat)と比較し、より深いモデルベースラインと比較します。
以上の結果から,DWAttとConcatはベースラインよりもステップ効率が高く,サンプル効率が高いことが示唆された。
DWAttは、より大きなデータサイズでConcatを上回っます。
CoNLL-03 NERでは、層融合は3.68-9.73%のF1ゲインを示す。
レイヤ融合モデルは、異なるデータサイズ、アーキテクチャ、トレーニング制約を持つさまざまなトレーニングシナリオにおいて、ベースラインを大幅に上回った。
関連論文リスト
- Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - A multi-model-based deep learning framework for short text multiclass
classification with the imbalanced and extremely small data set [0.6875312133832077]
本稿では,不均衡かつ極めて小さなデータセットを持つ短文マルチクラス分類のための,マルチモデルに基づくディープラーニングフレームワークを提案する。
精度、リコール、精度、F1スコアの点で最先端のベースライン性能を維持している。
論文 参考訳(メタデータ) (2022-06-24T00:51:02Z) - FiT: Parameter Efficient Few-shot Transfer Learning for Personalized and
Federated Image Classification [47.24770508263431]
画像分類における要件を満たすFiLM Transfer (FiT) を開発した。
FiTは、大規模な画像データセットで事前トレーニングされた固定バックボーンの上に、自動的に設定されたNaive Bayes分類器を使用する。
本研究では, 最先端のBig Transfer (BiT) アルゴリズムよりも, ローショット, 挑戦的なVTAB-1kベンチマークにおいて, 高い分類精度が得られることを示す。
論文 参考訳(メタデータ) (2022-06-17T10:17:20Z) - Bandit Sampling for Multiplex Networks [8.771092194928674]
多数のレイヤを持つ多重ネットワーク上でのスケーラブルな学習アルゴリズムを提案する。
オンライン学習アルゴリズムは、トレーニング中に関連する情報を持つレイヤのみを集約するように、関連する隣のレイヤをサンプリングする方法を学ぶ。
合成シナリオと実世界のシナリオの両方に関する実験結果を示す。
論文 参考訳(メタデータ) (2022-02-08T03:26:34Z) - BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。
提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文 参考訳(メタデータ) (2021-10-18T17:35:41Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。