Fugu-MT 論文翻訳(概要): Depth-Wise Attention (DWAtt): A Layer Fusion Method for Data-Efficient Classification

論文の概要: Depth-Wise Attention (DWAtt): A Layer Fusion Method for Data-Efficient Classification

arxiv url: http://arxiv.org/abs/2209.15168v1
Date: Fri, 30 Sep 2022 01:39:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 14:21:33.754741
Title: Depth-Wise Attention (DWAtt): A Layer Fusion Method for Data-Efficient Classification
Title（参考訳）: Depth-Wise Attention (DWAtt): データ効率な分類のための層融合法
Authors: Muhammad ElNokrashy, Badr AlKhamissi, Mona Diab
Abstract要約: そこで本研究では,DWAtt(Depth-Wise Attention)と呼ばれる新しい層融合法を提案する。本研究では,DWAttを基本結合型層融合法(Concat)と比較し,より深いモデルベースラインと比較する。以上の結果から,DWAttとConcatはベースラインよりもステップ効率が高く,サンプル効率が高いことが示唆された。
参考スコア（独自算出の注目度）: 17.46452055424309
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Language Models pretrained on large textual data have been shown to encode different types of knowledge simultaneously. Traditionally, only the features from the last layer are used when adapting to new tasks or data. We put forward that, when using or finetuning deep pretrained models, intermediate layer features that may be relevant to the downstream task are buried too deep to be used efficiently in terms of needed samples or steps. To test this, we propose a new layer fusion method: Depth-Wise Attention (DWAtt), to help re-surface signals from non-final layers. We compare DWAtt to a basic concatenation-based layer fusion method (Concat), and compare both to a deeper model baseline -- all kept within a similar parameter budget. Our findings show that DWAtt and Concat are more step- and sample-efficient than the baseline, especially in the few-shot setting. DWAtt outperforms Concat on larger data sizes. On CoNLL-03 NER, layer fusion shows 3.68-9.73% F1 gain at different few-shot sizes. The layer fusion models presented significantly outperform the baseline in various training scenarios with different data sizes, architectures, and training constraints.
Abstract（参考訳）: 大きなテキストデータに基づいて事前学習された言語モデルは、異なる種類の知識を同時にエンコードすることが示されている。伝統的に、新しいタスクやデータに適応する際には、最後のレイヤの機能のみを使用する。我々は、深層事前訓練モデルの使用や微調整を行う際に、下流タスクに関連する中間層の特徴が深く埋もれすぎて、必要なサンプルやステップで効率的に利用できないことを主張した。そこで本研究では,非最終層からの表面信号の再検出を支援する新しい層融合法である深さ方向注意法(dwatt)を提案する。我々は,DWAttを基本結合型層融合法(Concat)と比較し,これらをモデルベースラインのより深いモデルと比較する。以上の結果から,DWAttとConcatはベースラインよりもステップ効率が高く,サンプル効率が高いことが示唆された。 DWAttは、より大きなデータサイズでConcatを上回っます。 CoNLL-03 NERでは、層融合は3.68-9.73%のF1ゲインを示す。レイヤ融合モデルは、データサイズ、アーキテクチャ、トレーニング制約の異なるさまざまなトレーニングシナリオにおいて、ベースラインを著しく上回っている。

関連論文リスト

Tensor-to-Tensor Models with Fast Iterated Sum Features [3.1806397908898063]
入力サイズが線形な新しいテンソル・ツー・テンソル層を提案する。画像処理パイプラインに挿入可能なイメージ・ツー・イメージ層を提供する。
論文参考訳（メタデータ） (2025-06-06T12:44:36Z)
MoLEx: Mixture of Layer Experts for Finetuning with Sparse Upcycling [2.1605931466490795]
深層モデルの大規模事前学習と微調整が自然言語処理(NLP)の基盤となっている。本稿では,異なるタイプの言語情報の抽出器としてレイヤについて検討する。我々は,事前学習モデルのレイヤーである専門家の疎結合であるMix of Layer Experts(Molex)を提案する。
論文参考訳（メタデータ） (2025-03-14T07:22:07Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文参考訳（メタデータ） (2024-04-14T19:45:35Z)
Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。フェデレートラーニングにおいて最も顕著に用いられている。私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文参考訳（メタデータ） (2023-07-13T09:39:10Z)
Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文参考訳（メタデータ） (2022-12-01T17:31:42Z)
A multi-model-based deep learning framework for short text multiclass classification with the imbalanced and extremely small data set [0.6875312133832077]
本稿では,不均衡かつ極めて小さなデータセットを持つ短文マルチクラス分類のための,マルチモデルに基づくディープラーニングフレームワークを提案する。精度、リコール、精度、F1スコアの点で最先端のベースライン性能を維持している。
論文参考訳（メタデータ） (2022-06-24T00:51:02Z)
FiT: Parameter Efficient Few-shot Transfer Learning for Personalized and Federated Image Classification [47.24770508263431]
画像分類における要件を満たすFiLM Transfer (FiT) を開発した。 FiTは、大規模な画像データセットで事前トレーニングされた固定バックボーンの上に、自動的に設定されたNaive Bayes分類器を使用する。本研究では, 最先端のBig Transfer (BiT) アルゴリズムよりも, ローショット, 挑戦的なVTAB-1kベンチマークにおいて, 高い分類精度が得られることを示す。
論文参考訳（メタデータ） (2022-06-17T10:17:20Z)
Bandit Sampling for Multiplex Networks [8.771092194928674]
多数のレイヤを持つ多重ネットワーク上でのスケーラブルな学習アルゴリズムを提案する。オンライン学習アルゴリズムは、トレーニング中に関連する情報を持つレイヤのみを集約するように、関連する隣のレイヤをサンプリングする方法を学ぶ。合成シナリオと実世界のシナリオの両方に関する実験結果を示す。
論文参考訳（メタデータ） (2022-02-08T03:26:34Z)
BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文参考訳（メタデータ） (2021-10-18T17:35:41Z)
Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文参考訳（メタデータ） (2021-06-08T06:13:11Z)
IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文参考訳（メタデータ） (2021-03-05T03:44:42Z)
Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文参考訳（メタデータ） (2020-08-04T10:41:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。