論文の概要: CUE Vectors: Modular Training of Language Models Conditioned on Diverse
Contextual Signals
- arxiv url: http://arxiv.org/abs/2203.08774v1
- Date: Wed, 16 Mar 2022 17:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:53:06.511004
- Title: CUE Vectors: Modular Training of Language Models Conditioned on Diverse
Contextual Signals
- Title(参考訳): cueベクトル:多様な文脈信号に基づく言語モデルのモジュラートレーニング
- Authors: Scott Novotney, Sreeparna Mukherjee, Zeeshan Ahmed and Andreas Stolcke
- Abstract要約: 本稿では,多種多様な文・外部文脈(メタデータを含む)を用いたニューラルネットワークモデルの学習をモジュール化する枠組みを提案する。
我々のアプローチである文脈的普遍埋め込み(CUE)は、日付や著者などの文脈の1つのセットでLMを訓練し、記事タイトルや前文のような新しいメタデータタイプに適応する。
我々は、複数のメタデータ型を持つNYTimesテキストコーパス上でCUEフレームワークを検証する。
- 参考スコア(独自算出の注目度): 11.310756148007753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework to modularize the training of neural language models
that use diverse forms of sentence-external context (including metadata) by
eliminating the need to jointly train sentence-external and within-sentence
encoders. Our approach, contextual universal embeddings (CUE), trains LMs on
one set of context, such as date and author, and adapts to novel metadata
types, such as article title, or previous sentence. The model consists of a
pretrained neural sentence LM, a BERT-based context encoder, and a masked
transformer decoder that estimates LM probabilities using sentence-internal and
sentence-external information. When context or metadata are unavailable, our
model learns to combine contextual and sentence-internal information using
noisy oracle unigram embeddings as a proxy. Real contextual information can be
introduced later and used to adapt a small number of parameters that map
contextual data into the decoder's embedding space. We validate the CUE
framework on a NYTimes text corpus with multiple metadata types, for which the
LM perplexity can be lowered from 36.6 to 27.4 by conditioning on context.
Bootstrapping a contextual LM with only a subset of the context/metadata during
training retains 85\% of the achievable gain. Training the model initially with
proxy context retains 67% of the perplexity gain after adapting to real
context. Furthermore, we can swap one type of pretrained sentence LM for
another without retraining the context encoders, by only adapting the decoder
model. Overall, we obtain a modular framework that allows incremental, scalable
training of context-enhanced LMs.
- Abstract(参考訳): 本稿では,文外エンコーダと文内エンコーダを共同で学習する必要をなくし,多種多様な文外コンテキスト(メタデータを含む)を用いたニューラルネットワークモデルの学習をモジュール化する枠組みを提案する。
我々のアプローチである文脈的普遍埋め込み(CUE)は、日付や著者などの文脈の1つのセットでLMを訓練し、記事タイトルや前文のような新しいメタデータタイプに適応する。
このモデルは、事前訓練されたニューラル文LM、BERTベースのコンテキストエンコーダ、および文内および文外情報を用いてLM確率を推定するマスク付きトランスフォーマーデコーダからなる。
コンテキストやメタデータが利用できない場合は、ノイズの多いoracle unigram embeddedsをプロキシとして使用して、コンテキスト情報と文内情報を組み合わせることを学びます。
実際のコンテキスト情報は後で導入でき、デコーダの埋め込み空間にコンテキストデータをマップする少数のパラメータを適応させるために使われる。
我々は,nytimes のテキストコーパス上で,コンテキスト条件付けによって lm のパープレキシティを 36.6 から 27.4 に下げることのできる複数のメタデータ型による cue フレームワークを検証する。
トレーニング中にコンテキスト/メタタのサブセットのみでコンテキストLMをブートストラッピングすると、達成可能なゲインの85%が保持される。
モデルのトレーニング まずはプロキシコンテキストで、実際のコンテキストに適応した後のパープレキシティゲインの67%を保持します。
さらに、デコーダモデルのみを適用すれば、コンテキストエンコーダを再トレーニングすることなく、事前学習文lmを別のタイプに置き換えることができる。
全体として、コンテキスト強化LMの漸進的かつスケーラブルなトレーニングを可能にするモジュラーフレームワークを得る。
関連論文リスト
- Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Critic-Driven Decoding for Mitigating Hallucinations in Data-to-text
Generation [5.304395026626743]
入力に埋もれていないテキストの幻覚は、ニューラルネットワークによるテキスト生成においてよく知られた問題である。
生成言語モデルの確率的出力と特別な「テキスト評論家」の出力を組み合わせることで幻覚を緩和する新しい方法を提案する。
本手法では,LMのアーキテクチャやトレーニング手順の変更は不要である。
論文 参考訳(メタデータ) (2023-10-25T20:05:07Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - BERT4CTR: An Efficient Framework to Combine Pre-trained Language Model
with Non-textual Features for CTR Prediction [12.850529317775198]
本稿では,非テキスト特徴とテキスト特徴の相互作用の恩恵を受けることができるUni-Attention機構を備えた新しいフレームワークBERT4CTRを提案する。
BERT4CTRは、マルチモーダル入力を処理する最先端フレームワークを大幅に上回り、Click-Through-Rate (CTR)予測に適用できる。
論文 参考訳(メタデータ) (2023-08-17T08:25:54Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Divide and Rule: Training Context-Aware Multi-Encoder Translation Models
with Little Resources [20.057692375546356]
マルチエンコーダモデルは、文書レベルのコンテキスト情報を現在の文と共にエンコードすることで、翻訳品質の向上を目指しています。
これらのパラメータのトレーニングは、コンテキストのトレーニング信号がスパースしているため、大量のデータを必要とする。
本稿では,並列文集合の訓練信号を豊かにするための,分割文対に基づく効率的な代替手法を提案する。
論文 参考訳(メタデータ) (2021-03-31T15:15:32Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z) - Capturing document context inside sentence-level neural machine
translation models with self-training [5.129814362802968]
文書レベルのニューラルマシン翻訳は、文レベルの翻訳よりもあまり注目されず、遅れを取っている。
本稿では,並列文書レベルのコーパス上で,特殊なモデルを訓練する必要のない手法を提案する。
我々のアプローチは、モデルによる選択を強化するため、文書内の他の文で同じ選択がされる可能性が高くなる。
論文 参考訳(メタデータ) (2020-03-11T12:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。