論文の概要: Distilling Linguistic Context for Language Model Compression
- arxiv url: http://arxiv.org/abs/2109.08359v1
- Date: Fri, 17 Sep 2021 05:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:53:38.557943
- Title: Distilling Linguistic Context for Language Model Compression
- Title(参考訳): 言語モデル圧縮のための拡張言語文脈
- Authors: Geondo Park, Gyeongman Kim, Eunho Yang
- Abstract要約: 計算コストが高く、メモリ集約型ニューラルネットワークは、最近の言語表現学習の成功の背後にある。
本稿では,2種類の関係を通して文脈知識を伝達する言語表現学習のための新しい知識蒸留目標を提案する。
言語理解タスクの挑戦的ベンチマークにおいて,本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 27.538080564616703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A computationally expensive and memory intensive neural network lies behind
the recent success of language representation learning. Knowledge distillation,
a major technique for deploying such a vast language model in resource-scarce
environments, transfers the knowledge on individual word representations
learned without restrictions. In this paper, inspired by the recent
observations that language representations are relatively positioned and have
more semantic knowledge as a whole, we present a new knowledge distillation
objective for language representation learning that transfers the contextual
knowledge via two types of relationships across representations: Word Relation
and Layer Transforming Relation. Unlike other recent distillation techniques
for the language models, our contextual distillation does not have any
restrictions on architectural changes between teacher and student. We validate
the effectiveness of our method on challenging benchmarks of language
understanding tasks, not only in architectures of various sizes, but also in
combination with DynaBERT, the recently proposed adaptive size pruning method.
- Abstract(参考訳): 計算コストが高くメモリ集約型ニューラルネットワークは、最近の言語表現学習の成功の背後にある。
知識蒸留は、資源不足の環境でそのような広大な言語モデルを展開するための主要な技術であり、知識を制約なく学習した個々の単語表現に伝達する。
本稿では,言語表現が相対的に位置付けられ,全体として意味的知識を持つという最近の観察に触発されて,文脈的知識を表現の2つのタイプである単語関係と層変換関係を通じて伝達する,言語表現学習のための新たな知識蒸留目標を提案する。
言語モデルの他の蒸留技術とは異なり、我々の文脈蒸留は教師と学生の間の建築的変化に何の制約も与えていない。
提案手法は,様々な大きさのアーキテクチャだけでなく,最近提案されている適応サイズプルーニング手法であるdynabertと組み合わせて,言語理解タスクの難解なベンチマークにおいて有効であることを検証した。
関連論文リスト
- Enhancing Context Through Contrast [0.4068270792140993]
本稿では,ニューラルマシン翻訳の性能向上のための新しいコンテキスト拡張ステップを提案する。
他のアプローチとは異なり、明示的にデータを拡張するのではなく、言語を暗黙的な拡張と見なす。
本手法は, 組込みをゼロから学習せず, 事前学習した組込みに一般化することができる。
論文 参考訳(メタデータ) (2024-01-06T22:13:51Z) - Adaptive Knowledge Distillation between Text and Speech Pre-trained
Models [30.125690848883455]
先行インフォームド・アダプティブ・ナレッジ蒸留(PAD)は他のメートル法に基づく蒸留法よりも言語知識の伝達に効果的である。
本稿では,テキストと音声の埋め込み空間を少量のデータで整列させるため,メートル法に基づく蒸留について検討する。
我々は,3つの音声言語理解ベンチマークを用いて,PADが他のメートル法に基づく蒸留法よりも言語知識の伝達に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-07T02:31:57Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Transfer Learning of Lexical Semantic Families for Argumentative
Discourse Units Identification [0.8508198765617198]
引数マイニングのタスクは、低から高の複雑さの言語現象と常識知識のインフォームドレンジを必要とする。
これまでの研究では、事前学習された言語モデルは、構文的および意味論的言語現象を符号化するのに非常に効果的であることが示されている。
既存のトレーニング済み言語モデルが、引数マイニングタスクの複雑さをどの程度含んでいるかは、依然として問題である。
論文 参考訳(メタデータ) (2022-09-06T13:38:47Z) - Knowledge Graph Fusion for Language Model Fine-tuning [0.0]
BERTの微調整段階における知識導入のメリットについて検討する。
既存のK-BERTモデルは、知識グラフから三つ子で文を豊かにするものであり、英語に適応している。
K-BERTに変更された英語は、他の単語ベースの言語にも拡張されている。
論文 参考訳(メタデータ) (2022-06-21T08:06:22Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。