論文の概要: CUE Vectors: Modular Training of Language Models Conditioned on Diverse
Contextual Signals
- arxiv url: http://arxiv.org/abs/2203.08774v1
- Date: Wed, 16 Mar 2022 17:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:53:06.511004
- Title: CUE Vectors: Modular Training of Language Models Conditioned on Diverse
Contextual Signals
- Title(参考訳): cueベクトル:多様な文脈信号に基づく言語モデルのモジュラートレーニング
- Authors: Scott Novotney, Sreeparna Mukherjee, Zeeshan Ahmed and Andreas Stolcke
- Abstract要約: 本稿では,多種多様な文・外部文脈(メタデータを含む)を用いたニューラルネットワークモデルの学習をモジュール化する枠組みを提案する。
我々のアプローチである文脈的普遍埋め込み(CUE)は、日付や著者などの文脈の1つのセットでLMを訓練し、記事タイトルや前文のような新しいメタデータタイプに適応する。
我々は、複数のメタデータ型を持つNYTimesテキストコーパス上でCUEフレームワークを検証する。
- 参考スコア(独自算出の注目度): 11.310756148007753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework to modularize the training of neural language models
that use diverse forms of sentence-external context (including metadata) by
eliminating the need to jointly train sentence-external and within-sentence
encoders. Our approach, contextual universal embeddings (CUE), trains LMs on
one set of context, such as date and author, and adapts to novel metadata
types, such as article title, or previous sentence. The model consists of a
pretrained neural sentence LM, a BERT-based context encoder, and a masked
transformer decoder that estimates LM probabilities using sentence-internal and
sentence-external information. When context or metadata are unavailable, our
model learns to combine contextual and sentence-internal information using
noisy oracle unigram embeddings as a proxy. Real contextual information can be
introduced later and used to adapt a small number of parameters that map
contextual data into the decoder's embedding space. We validate the CUE
framework on a NYTimes text corpus with multiple metadata types, for which the
LM perplexity can be lowered from 36.6 to 27.4 by conditioning on context.
Bootstrapping a contextual LM with only a subset of the context/metadata during
training retains 85\% of the achievable gain. Training the model initially with
proxy context retains 67% of the perplexity gain after adapting to real
context. Furthermore, we can swap one type of pretrained sentence LM for
another without retraining the context encoders, by only adapting the decoder
model. Overall, we obtain a modular framework that allows incremental, scalable
training of context-enhanced LMs.
- Abstract(参考訳): 本稿では,文外エンコーダと文内エンコーダを共同で学習する必要をなくし,多種多様な文外コンテキスト(メタデータを含む)を用いたニューラルネットワークモデルの学習をモジュール化する枠組みを提案する。
我々のアプローチである文脈的普遍埋め込み(CUE)は、日付や著者などの文脈の1つのセットでLMを訓練し、記事タイトルや前文のような新しいメタデータタイプに適応する。
このモデルは、事前訓練されたニューラル文LM、BERTベースのコンテキストエンコーダ、および文内および文外情報を用いてLM確率を推定するマスク付きトランスフォーマーデコーダからなる。
コンテキストやメタデータが利用できない場合は、ノイズの多いoracle unigram embeddedsをプロキシとして使用して、コンテキスト情報と文内情報を組み合わせることを学びます。
実際のコンテキスト情報は後で導入でき、デコーダの埋め込み空間にコンテキストデータをマップする少数のパラメータを適応させるために使われる。
我々は,nytimes のテキストコーパス上で,コンテキスト条件付けによって lm のパープレキシティを 36.6 から 27.4 に下げることのできる複数のメタデータ型による cue フレームワークを検証する。
トレーニング中にコンテキスト/メタタのサブセットのみでコンテキストLMをブートストラッピングすると、達成可能なゲインの85%が保持される。
モデルのトレーニング まずはプロキシコンテキストで、実際のコンテキストに適応した後のパープレキシティゲインの67%を保持します。
さらに、デコーダモデルのみを適用すれば、コンテキストエンコーダを再トレーニングすることなく、事前学習文lmを別のタイプに置き換えることができる。
全体として、コンテキスト強化LMの漸進的かつスケーラブルなトレーニングを可能にするモジュラーフレームワークを得る。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - A Case Study on Context-Aware Neural Machine Translation with Multi-Task Learning [49.62044186504516]
文書レベルのニューラルネットワーク翻訳(DocNMT)では、コンテクストやソース文のエンコーディングにおいてマルチエンコーダアプローチが一般的である。
近年の研究では、コンテキストエンコーダがノイズを発生させ、コンテキストの選択に頑健なモデルを実現することが示されている。
本稿では、マルチタスク学習(MTL)を通してコンテキストエンコーディングを明示的にモデル化することで、コンテキスト選択に敏感なモデルを実現することにより、この観察をさらに検討する。
論文 参考訳(メタデータ) (2024-07-03T12:50:49Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - BERT4CTR: An Efficient Framework to Combine Pre-trained Language Model
with Non-textual Features for CTR Prediction [12.850529317775198]
本稿では,非テキスト特徴とテキスト特徴の相互作用の恩恵を受けることができるUni-Attention機構を備えた新しいフレームワークBERT4CTRを提案する。
BERT4CTRは、マルチモーダル入力を処理する最先端フレームワークを大幅に上回り、Click-Through-Rate (CTR)予測に適用できる。
論文 参考訳(メタデータ) (2023-08-17T08:25:54Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Divide and Rule: Training Context-Aware Multi-Encoder Translation Models
with Little Resources [20.057692375546356]
マルチエンコーダモデルは、文書レベルのコンテキスト情報を現在の文と共にエンコードすることで、翻訳品質の向上を目指しています。
これらのパラメータのトレーニングは、コンテキストのトレーニング信号がスパースしているため、大量のデータを必要とする。
本稿では,並列文集合の訓練信号を豊かにするための,分割文対に基づく効率的な代替手法を提案する。
論文 参考訳(メタデータ) (2021-03-31T15:15:32Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。