論文の概要: Probing Out-of-Distribution Robustness of Language Models with
Parameter-Efficient Transfer Learning
- arxiv url: http://arxiv.org/abs/2301.11660v2
- Date: Mon, 30 Jan 2023 07:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 20:17:42.020889
- Title: Probing Out-of-Distribution Robustness of Language Models with
Parameter-Efficient Transfer Learning
- Title(参考訳): パラメーター効率の高い転送学習による言語モデルの分布外ロバスト性の検出
- Authors: Hyunsoo Cho, Choonghyun Park, Junyeop Kim, Hyuhng Joon Kim, Kang Min
Yoo, and Sang-goo Lee
- Abstract要約: 本研究では, PLMのサイズが大きくなるか, 移動方法が変化するにつれて, 分布外を検出する能力がどう変化するかを検討する。
我々は,3種類の意図分類タスクにおいて,細調整,アダプタ,LoRA,プレフィックスチューニングなどのPETL技術を評価した。
- 参考スコア(独自算出の注目度): 17.110208720745064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the size of the pre-trained language model (PLM) continues to increase,
numerous parameter-efficient transfer learning methods have been proposed
recently to compensate for the tremendous cost of fine-tuning. Despite the
impressive results achieved by large pre-trained language models (PLMs) and
various parameter-efficient transfer learning (PETL) methods on sundry
benchmarks, it remains unclear if they can handle inputs that have been
distributionally shifted effectively. In this study, we systematically explore
how the ability to detect out-of-distribution (OOD) changes as the size of the
PLM grows or the transfer methods are altered. Specifically, we evaluated
various PETL techniques, including fine-tuning, Adapter, LoRA, and
prefix-tuning, on three different intention classification tasks, each
utilizing various language models with different scales.
- Abstract(参考訳): プレトレーニング言語モデル (PLM) のサイズが増加し続けるにつれて, 微調整の膨大なコストを補うために, パラメータ効率の学習手法が多数提案されている。
大規模な事前学習言語モデル (PLM) と各種パラメータ効率変換学習法 (PETL) が日没ベンチマークで達成した印象的な結果にもかかわらず, 分散的にシフトした入力を効果的に処理できるかどうかは不明である。
本研究では,plmの大きさや転送方法が変化するにつれて,od(out-of-distribution)がどう変化するかを体系的に検討する。
具体的には,異なるスケールの様々な言語モデルを用いて,3つの異なる意図分類タスクにおいて,微調整,アダプタ,lora,プレフィックスチューニングを含む様々なpetl手法を評価した。
関連論文リスト
- SPAFIT: Stratified Progressive Adaptation Fine-tuning for Pre-trained Large Language Models [1.2263658159556594]
フル微調整は、Transformerベースのトレーニング済みの大規模言語モデルを特定の下流タスクに適応するための一般的なアプローチである。
本研究では,多種多様な言語知識の局所化に基づくSPAFIT(Stratified Progressive Adaptation Fine-tuning)を提案する。
GLUEベンチマークの9つのタスクを用いて実験を行い,提案手法が他のPEFT法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-30T21:07:32Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Investigating Transferability in Pretrained Language Models [8.83046338075119]
本稿では,各事前学習層が伝達タスク性能に与える影響を簡易なアブレーション手法で判定する。
この手法により、BERTでは、下流GLUEタスクにおける高いプローブ性能を持つレイヤは、それらのタスクに対して高い精度で必要でも十分でもないことが分かる。
論文 参考訳(メタデータ) (2020-04-30T17:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。