論文の概要: On the Learning of Non-Autoregressive Transformers
- arxiv url: http://arxiv.org/abs/2206.05975v1
- Date: Mon, 13 Jun 2022 08:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 15:37:21.110886
- Title: On the Learning of Non-Autoregressive Transformers
- Title(参考訳): 非自己回帰変圧器の学習について
- Authors: Fei Huang, Tianhua Tao, Hao Zhou, Lei Li, Minlie Huang
- Abstract要約: 非自己回帰変換器(Non-autoregressive Transformer、NAT)は、テキスト生成モデルのファミリーである。
NAT学習の課題を明らかにするため,理論的および経験的分析を行った。
- 参考スコア(独自算出の注目度): 91.34196047466904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive Transformer (NAT) is a family of text generation models,
which aims to reduce the decoding latency by predicting the whole sentences in
parallel. However, such latency reduction sacrifices the ability to capture
left-to-right dependencies, thereby making NAT learning very challenging. In
this paper, we present theoretical and empirical analyses to reveal the
challenges of NAT learning and propose a unified perspective to understand
existing successes. First, we show that simply training NAT by maximizing the
likelihood can lead to an approximation of marginal distributions but drops all
dependencies between tokens, where the dropped information can be measured by
the dataset's conditional total correlation. Second, we formalize many previous
objectives in a unified framework and show that their success can be concluded
as maximizing the likelihood on a proxy distribution, leading to a reduced
information loss. Empirical studies show that our perspective can explain the
phenomena in NAT learning and guide the design of new training methods.
- Abstract(参考訳): 非自己回帰トランスフォーマー(non-autoregressive transformer, nat)は、文全体を並列に予測することで復号遅延を削減することを目的としたテキスト生成モデルである。
しかし、そのようなレイテンシ低減は、左から右への依存関係をキャプチャする能力を犠牲にして、NAT学習を非常に困難にする。
本稿では,NAT学習の課題を明らかにするための理論的,実証的な分析を行い,既存の成功を理解するための統一的な視点を提案する。
まず, NAT を最大化することで, NAT のトレーニングを行うだけで限界分布の近似を導出できるが, トークン間の依存度はすべて減少し, ドロップした情報がデータセットの条件付き総相関によって測定可能であることを示す。
第2に,従来の目標の多くを統一フレームワークで定式化し,その成功をプロキシ分布の可能性を最大化することで,情報損失を低減できることを示す。
実証的研究により,NAT学習における現象を考察し,新たな学習手法の設計を指導できることが示唆された。
関連論文リスト
- Learning Latent Graph Structures and their Uncertainty [63.95971478893842]
グラフニューラルネットワーク(GNN)は、モデル精度を高めるために帰納バイアスとしてリレーショナル情報を使用する。
課題関連関係が不明なため,下流予測タスクを解きながら学習するためのグラフ構造学習手法が提案されている。
論文 参考訳(メタデータ) (2024-05-30T10:49:22Z) - Probabilistically Rewired Message-Passing Neural Networks [41.554499944141654]
メッセージパッシンググラフニューラルネットワーク(MPNN)は、グラフ構造化入力を処理する強力なツールとして登場した。
MPNNは、潜在的なノイズや欠落した情報を無視して、固定された入力グラフ構造で動作する。
確率的に再構成されたMPNN(PR-MPNN)を考案し、より有益なものを省略しながら、関連するエッジを追加することを学習する。
論文 参考訳(メタデータ) (2023-10-03T15:43:59Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Selective Knowledge Distillation for Non-Autoregressive Neural Machine
Translation [34.22251326493591]
非自己回帰変換器(Non-Autoregressive Transformer、NAT)は、ニューラルマシン翻訳タスクにおいて大きな成功を収めている。
既存の知識蒸留は、教師からNAT学生への誤りの伝播などの副作用がある。
高品質で学習が容易なNATフレンドリーなターゲットの選択にNATを導入することで、選択的知識蒸留を導入する。
論文 参考訳(メタデータ) (2023-03-31T09:16:13Z) - Less is More: Rethinking Few-Shot Learning and Recurrent Neural Nets [2.824895388993495]
情報理論AEPに基づく信頼性学習の理論的保証を提供する。
次に、高効率なリカレントニューラルネット(RNN)フレームワークに焦点を当て、少数ショット学習のための縮小エントロピーアルゴリズムを提案する。
実験結果から,学習モデルのサンプル効率,一般化,時間的複雑さを向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T17:33:11Z) - Sequence-Level Training for Non-Autoregressive Neural Machine
Translation [33.17341980163439]
非自己回帰ニューラルネットワーク変換(NAT)は自己回帰機構を取り除き、大幅なデコード高速化を実現する。
本研究では,NATの出力を全体として評価し,実際の翻訳品質とよく相関するNATモデルをトレーニングするためのシーケンスレベルのトレーニング目標を提案する。
論文 参考訳(メタデータ) (2021-06-15T13:30:09Z) - Fully Non-autoregressive Neural Machine Translation: Tricks of the Trade [47.97977478431973]
NAT(Fullly non-autoregressive neural Machine Translation)は、ニューラルネットワークのシングルフォワードでトークンを同時に予測する手法である。
この作業では、レイテンシのアドバンテージを維持しながら、パフォーマンスのギャップを縮めることを目標としています。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。