論文の概要: Memory Attentive Fusion: External Language Model Integration for
Transformer-based Sequence-to-Sequence Model
- arxiv url: http://arxiv.org/abs/2010.15437v1
- Date: Thu, 29 Oct 2020 09:16:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 22:53:39.804935
- Title: Memory Attentive Fusion: External Language Model Integration for
Transformer-based Sequence-to-Sequence Model
- Title(参考訳): memory attentive fusion:transformer-based sequence-to-sequence modelのための外部言語モデルの統合
- Authors: Mana Ihori, Ryo Masumura, Naoki Makishima, Tomohiro Tanaka, Akihiko
Takashima, Shota Orihashi
- Abstract要約: 本稿では,外部言語モデル(LM)をトランスフォーマーベースシーケンス・ツー・シーケンス(seq2seq)モデルに統合する新たな融合手法を提案する。
提案手法はbfメモリ注意融合(bf memory attentive fusion)と呼ばれ、トランスフォーマー方式のアテンション機構を利用して、マルチホップ方式でソースターゲットのアテンションを繰り返すことで、LMの記憶された知識を読み取る。
- 参考スコア(独自算出の注目度): 34.41738223644518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel fusion method for integrating an external
language model (LM) into the Transformer based sequence-to-sequence (seq2seq)
model. While paired data are basically required to train the seq2seq model, the
external LM can be trained with only unpaired data. Thus, it is important to
leverage memorized knowledge in the external LM for building the seq2seq model,
since it is hard to prepare a large amount of paired data. However, the
existing fusion methods assume that the LM is integrated with recurrent neural
network-based seq2seq models instead of the Transformer. Therefore, this paper
proposes a fusion method that can explicitly utilize network structures in the
Transformer. The proposed method, called {\bf memory attentive fusion},
leverages the Transformer-style attention mechanism that repeats source-target
attention in a multi-hop manner for reading the memorized knowledge in the LM.
Our experiments on two text-style conversion tasks demonstrate that the
proposed method performs better than conventional fusion methods.
- Abstract(参考訳): 本稿では,外部言語モデル(lm)をトランスフォーマティブ・シーケンス・ツー・シーケンス(seq2seq)モデルに統合する新しい融合手法を提案する。
ペアデータには基本的にseq2seqモデルのトレーニングが必要となるが、外部lmはペアデータのみを使用してトレーニングすることができる。
したがって、大量のペアデータを作成することが困難であるため、seq2seqモデルを構築するために外部lmに記憶された知識を活用することが重要である。
しかし、既存の融合手法では、lmはトランスフォーマーの代わりにリカレントニューラルネットワークベースのseq2seqモデルと統合されていると仮定している。
そこで本稿では,トランスのネットワーク構造を明示的に活用できる融合手法を提案する。
提案手法は {\bf memory attentive fusion} と呼ばれ、lm で記憶された知識を読み取るために、ソースターゲットの注意をマルチホップ方式で繰り返すトランスフォーマー型の注意機構を利用する。
2つのテキスト変換タスクにおける実験により,提案手法が従来の融合法よりも優れた性能を示す。
関連論文リスト
- ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。
提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。
我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-11-11T16:45:18Z) - Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Mixed Transformer U-Net For Medical Image Segmentation [14.046456257175237]
本稿では,相互親和性学習と親和性学習を同時に行うためのMTMを提案する。
MTMを用いて、正確な医用画像分割のためのMixed Transformer U-Net(MT-UNet)と呼ばれるU字型モデルを構築した。
論文 参考訳(メタデータ) (2021-11-08T09:03:46Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Multi-Encoder Learning and Stream Fusion for Transformer-Based
End-to-End Automatic Speech Recognition [30.941564693248512]
トランスと呼ばれるオールアテンテンション型エンコーダデコーダアーキテクチャの様々な融合技術について検討する。
トレーニング中にのみ2つのエンコーダデコーダマルチヘッドアテンション出力の重み付き組み合わせを実行する新しいマルチエンコーダ学習方法を紹介します。
ウォールストリートジャーナルのトランスベースモデルの最先端のパフォーマンスを実現し、現在のベンチマークアプローチと比較して19%のWER削減を実現しました。
論文 参考訳(メタデータ) (2021-03-31T21:07:43Z) - Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。
本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。
このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文 参考訳(メタデータ) (2020-06-01T17:52:15Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。