論文の概要: DACBERT: Leveraging Dependency Agreement for Cost-Efficient Bert
Pretraining
- arxiv url: http://arxiv.org/abs/2311.04799v1
- Date: Wed, 8 Nov 2023 16:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 15:10:18.548063
- Title: DACBERT: Leveraging Dependency Agreement for Cost-Efficient Bert
Pretraining
- Title(参考訳): DACBERT: コスト効率の良いベルト事前トレーニングのための依存関係合意の活用
- Authors: Martin Kuo, Jianyi Zhang, Yiran Chen
- Abstract要約: 本稿では,新たな事前学習モデル Dependency Agreement Crammed BERT (DACBERT) とその2段階事前学習フレームワーク Dependency Agreement Pretrainingを紹介する。
このフレームワークは、構文と意味情報を事前学習プロセスにシームレスに織り込む。
提案手法は,GLUEの平均スコアを0.83%向上させ,その有意な可能性を裏付けるものである。
- 参考スコア(独自算出の注目度): 12.858559527280487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building on the cost-efficient pretraining advancements brought about by
Crammed BERT, we enhance its performance and interpretability further by
introducing a novel pretrained model Dependency Agreement Crammed BERT
(DACBERT) and its two-stage pretraining framework - Dependency Agreement
Pretraining. This framework, grounded by linguistic theories, seamlessly weaves
syntax and semantic information into the pretraining process. The first stage
employs four dedicated submodels to capture representative dependency
agreements at the chunk level, effectively converting these agreements into
embeddings. The second stage uses these refined embeddings, in tandem with
conventional BERT embeddings, to guide the pretraining of the rest of the
model. Evaluated on the GLUE benchmark, our DACBERT demonstrates notable
improvement across various tasks, surpassing Crammed BERT by 3.13% in the RTE
task and by 2.26% in the MRPC task. Furthermore, our method boosts the average
GLUE score by 0.83%, underscoring its significant potential. The pretraining
process can be efficiently executed on a single GPU within a 24-hour cycle,
necessitating no supplementary computational resources or extending the
pretraining duration compared with the Crammed BERT. Extensive studies further
illuminate our approach's instrumental role in bolstering the interpretability
of pretrained language models for natural language understanding tasks.
- Abstract(参考訳): 本稿では, クラミテッドBERTのコスト効率向上を基盤として, 新たな事前トレーニングモデルである依存性契約クラミテッドBERT(DACBERT)と2段階事前トレーニングフレームワークである依存性契約事前トレーニングを導入することにより, その性能と解釈可能性を高める。
言語理論に基づくこの枠組みは、構文と意味情報を事前学習プロセスにシームレスに織り込む。
最初の段階では、4つの専用のサブモデルを使用して、チャンクレベルでの代表的依存関係契約をキャプチャし、これらの契約を効果的に埋め込みに変換する。
第2段階では、これらの洗練された埋め込みを従来のBERT埋め込みと組み合わせて、モデルの他の部分の事前訓練をガイドする。
DACBERTはGLUEベンチマークに基づいて,RTEタスクで3.13%,MRPCタスクで2.26%,さまざまなタスクで顕著な改善を示している。
さらに,本手法はGLUEの平均スコアを0.83%向上させ,その有意な可能性を裏付ける。
プレトレーニングプロセスは、1つのGPU上で24時間サイクルで効率的に実行でき、補足的な計算資源を必要とせず、クラムドBERTと比較してトレーニング期間を延長することができる。
また,本研究は,自然言語理解タスクにおける事前学習された言語モデルの解釈可能性を高める上で,我々のアプローチが果たす役割を照らしている。
関連論文リスト
- Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - Headless Language Models: Learning without Predicting with Contrastive
Weight Tying [0.11510009152620666]
言語モデルの自己教師付き事前訓練は通常、広範囲なトークン語彙上の確率分布を予測する。
確率予測から脱却し、コンストラッシブウェイトタイリング(CWT)を介してコントラッシブな方法で入力埋め込みを再構築することに焦点を当てた革新的な手法を提案する。
同様の計算予算における古典的 LM と比較して, 有意な +1.6 GLUE スコアの増加と, 顕著な +2.7 LAMBADA の精度向上が観察された。
論文 参考訳(メタデータ) (2023-09-15T12:20:00Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Guided contrastive self-supervised pre-training for automatic speech
recognition [16.038298927903632]
コントラスト予測符号化(Contrastive Predictive Coding, CPC)は、中間潜在表現と与えられたモデルの出力の相互情報を最大化する表現学習法である。
GCPC ( Guided Contrastive Predictive Coding) と呼ばれる新しいCPCの修正について述べる。
提案手法は,事前知識モデルからの表現と事前学習中のモデルの出力との相互情報を最大化し,事前学習時の事前知識注入を可能にする。
論文 参考訳(メタデータ) (2022-10-22T02:38:43Z) - Towards Simple and Efficient Task-Adaptive Pre-training for Text
Classification [0.7874708385247353]
TAPTおよびタスク固有の微調整において,埋め込み層のみの学習がモデルの性能に及ぼす影響について検討した。
TAPT中のBERT埋め込み層のみのトレーニングは、ターゲットドメインの語彙に適応し、同等の性能を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-09-26T18:29:12Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z) - Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation [84.64004917951547]
BERTのような微調整済みの言語モデルは、NLPにおいて効果的な方法となっている。
本稿では, BERTの微細調整を, 自己組織化と自己蒸留の2つの効果的なメカニズムで改善する。
論文 参考訳(メタデータ) (2020-02-24T16:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。