論文の概要: Enhancing Transformers with Gradient Boosted Decision Trees for NLI
Fine-Tuning
- arxiv url: http://arxiv.org/abs/2105.03791v1
- Date: Sat, 8 May 2021 22:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 10:27:33.889885
- Title: Enhancing Transformers with Gradient Boosted Decision Trees for NLI
Fine-Tuning
- Title(参考訳): 傾斜ブースト決定木を用いたnli微調整用変圧器
- Authors: Benjamin Minixhofer, Milan Gritta, Ignacio Iacobacci
- Abstract要約: ニューラルネットワークによる余分な計算を行なわずに性能を向上させるために、微調整中に計算された機能にGBDTヘッドを装着するFreeGBDTを導入する。
強力なベースラインモデルを用いて,複数のNLIデータセットに対して提案手法の有効性を示す。
- 参考スコア(独自算出の注目度): 7.906608953906889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning has become the dominant paradigm for many natural language
processing tasks. In addition to models being pretrained on large datasets,
they can be further trained on intermediate (supervised) tasks that are similar
to the target task. For small Natural Language Inference (NLI) datasets,
language modelling is typically followed by pretraining on a large (labelled)
NLI dataset before fine-tuning with each NLI subtask. In this work, we explore
Gradient Boosted Decision Trees (GBDTs) as an alternative to the commonly used
Multi-Layer Perceptron (MLP) classification head. GBDTs have desirable
properties such as good performance on dense, numerical features and are
effective where the ratio of the number of samples w.r.t the number of features
is low. We then introduce FreeGBDT, a method of fitting a GBDT head on the
features computed during fine-tuning to increase performance without additional
computation by the neural network. We demonstrate the effectiveness of our
method on several NLI datasets using a strong baseline model (RoBERTa-large
with MNLI pretraining). The FreeGBDT shows a consistent improvement over the
MLP classification head.
- Abstract(参考訳): トランスファー学習は多くの自然言語処理タスクにおいて主要なパラダイムとなっている。
大規模なデータセットで事前トレーニングされたモデルに加えて、ターゲットタスクに類似した中間(教師あり)タスクでさらにトレーニングすることができる。
小さな自然言語推論(NLI)データセットの場合、言語モデリングは通常、それぞれのNLIサブタスクで微調整する前に、大きな(ラベル付き)NLIデータセットで事前トレーニングが行われる。
本研究では,多層パーセプトロン(MLP)分類ヘッドの代替として,GBDT(Gradient Boosted Decision Trees)を探索する。
GBDTは、密度の高い数値的特徴に対する優れた性能などの望ましい特性を有し、試料数w.r.tの比率が低い場合に有効である。
次に、微細チューニング中に計算した機能にGBDTヘッドを取り付け、ニューラルネットワークによる計算を必要とせずに性能を向上させるFreeGBDTを紹介する。
強ベースラインモデル (RoBERTa-large with MNLI pretraining) を用いて, 提案手法の有効性を示す。
FreeGBDTは、MPP分類ヘッドよりも一貫した改善を示している。
関連論文リスト
- Team up GBDTs and DNNs: Advancing Efficient and Effective Tabular Prediction with Tree-hybrid MLPs [20.67800392863432]
タブラルデータセットは、様々なアプリケーションにおいて重要な役割を果たす。
強化決定木(GBDT)とディープニューラルネットワーク(DNN)の2つの顕著なモデルタイプは、異なる予測タスクでパフォーマンス上のアドバンテージを示している。
本稿では,GBDTとDNNの両方の利点を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-13T07:13:32Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Fine-Tuning Pre-Trained Language Models Effectively by Optimizing
Subnetworks Adaptively [32.001304911395756]
微調整時の大規模事前学習モデルの動的選択(DPS)アルゴリズムを提案する。
GLUEベンチマークの実験では、DPSは全体的な性能と安定性の点で従来の微調整法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:32:12Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient
Framework [10.656788279434798]
本稿では,大規模事前学習に依存しない,シンプルで効率的な学習フレームワーク TLM を提案する。
4つの領域の8つの分類データセットにおいて、TLMは事前訓練された言語モデルよりも良い結果が得られる。
論文 参考訳(メタデータ) (2021-11-07T17:13:59Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-01T00:41:03Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。