論文の概要: Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder
- arxiv url: http://arxiv.org/abs/2304.04052v1
- Date: Sat, 8 Apr 2023 15:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 18:07:38.944663
- Title: Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder
- Title(参考訳): デコーダのみか、エンコーダデコーダか?
正規化エンコーダデコーダとしての言語モデルの解釈
- Authors: Zihao Fu, Wai Lam, Qian Yu, Anthony Man-Cho So, Shengding Hu, Zhiyuan
Liu, Nigel Collier
- Abstract要約: seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
- 参考スコア(独自算出の注目度): 75.03283861464365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sequence-to-sequence (seq2seq) task aims at generating the target
sequence based on the given input source sequence. Traditionally, most of the
seq2seq task is resolved by the Encoder-Decoder framework which requires an
encoder to encode the source sequence and a decoder to generate the target
text. Recently, a bunch of new approaches have emerged that apply decoder-only
language models directly to the seq2seq task. Despite the significant
advancements in applying language models to the seq2seq task, there is still a
lack of thorough analysis on the effectiveness of the decoder-only language
model architecture. This paper aims to address this gap by conducting a
detailed comparison between the encoder-decoder architecture and the
decoder-only language model framework through the analysis of a regularized
encoder-decoder structure. This structure is designed to replicate all
behaviors in the classical decoder-only language model but has an encoder and a
decoder making it easier to be compared with the classical encoder-decoder
structure. Based on the analysis, we unveil the attention degeneration problem
in the language model, namely, as the generation step number grows, less and
less attention is focused on the source sequence. To give a quantitative
understanding of this problem, we conduct a theoretical sensitivity analysis of
the attention output with respect to the source input. Grounded on our
analysis, we propose a novel partial attention language model to solve the
attention degeneration problem. Experimental results on machine translation,
summarization, and data-to-text generation tasks support our analysis and
demonstrate the effectiveness of our proposed model.
- Abstract(参考訳): シーケンス対シーケンス(seq2seq)タスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはEncoder-Decoderフレームワークによって解決され、エンコーダはソースシーケンスをエンコードし、デコーダはターゲットテキストを生成する。
最近、seq2seqタスクにデコーダのみの言語モデルを直接適用する新しいアプローチが多数登場している。
seq2seqタスクに言語モデルを適用する大きな進歩にもかかわらず、デコーダのみの言語モデルアーキテクチャの有効性に関する詳細な分析はいまだにない。
本稿では,正規化エンコーダ-デコーダ構造の解析を通じて,エンコーダ-デコーダアーキテクチャとデコーダのみの言語モデルフレームワークとの詳細な比較を行うことにより,このギャップを解決することを目的とする。
この構造は、古典的なデコーダのみの言語モデルで全ての動作を複製するように設計されているが、エンコーダとデコーダを持ち、従来のエンコーダ-デコーダ構造と比較しやすい。
分析に基づいて,言語モデルにおける注意の低下問題,すなわち,生成ステップ数が増加するにつれて,ソースシーケンスに注目が集中する割合が小さくなることを明らかにする。
この問題を定量的に理解するために、我々はソース入力に対する注意出力の理論的感度解析を行う。
そこで本研究では,注目劣化問題を解決するために,新たな部分的注意言語モデルを提案する。
機械翻訳,要約,データ・テキスト生成タスクの実験結果により,提案モデルの有効性が実証された。
関連論文リスト
- Exploring Automatic Evaluation Methods based on a Decoder-based LLM for
Text Generation [16.78350863261211]
本稿では,エンコーダモデルを用いたチューニングや,同じ条件下での大規模言語モデルなど,様々な手法を比較する。
実験結果から, 調律エンコーダモデルと比較すると, 調律デコーダモデルの性能は低かった。
また、ChatGPTのような非常に大きなデコーダベースのモデルのコンテキスト内学習は、きめ細かいセマンティックな違いを識別することが困難であることも明らかにした。
論文 参考訳(メタデータ) (2023-10-17T06:53:00Z) - DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers [6.405360669408265]
本稿では,エンコーダ・デコーダ変換器を簡易に解析する手法を提案する。
LogitLens(デコーダのみのトランスフォーマー)にインスパイアされたこの手法では、デコーダが中間エンコーダ層を横断的に表現できるようにする。
質問応答,論理的推論,音声認識,機械翻訳を訓練したモデルに適用したDecoderLensの結果を報告する。
論文 参考訳(メタデータ) (2023-10-05T17:04:59Z) - Is Encoder-Decoder Redundant for Neural Machine Translation? [44.37101354412253]
encoder-decoderアーキテクチャは現在でも、最先端モデルのデファクトニューラルネットワークアーキテクチャである。
本研究は,バイリンガル翻訳,ターゲット単言語データを用いた翻訳,多言語翻訳の実験である。
この代替アプローチは、ベースラインエンコーダ-デコーダ変換器と同等に動作し、エンコーダ-デコーダアーキテクチャがニューラルマシン翻訳に冗長である可能性を示唆している。
論文 参考訳(メタデータ) (2022-10-21T08:33:55Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Sparsity and Sentence Structure in Encoder-Decoder Attention of
Summarization Systems [38.672160430296536]
トランスフォーマーモデルは、要約を含む幅広いNLPタスクにおいて最先端の結果を得た。
これまでの研究は、エンコーダの二次的自己保持機構という、重要なボトルネックに重点を置いてきた。
この研究はトランスのエンコーダ・デコーダのアテンション機構に焦点を当てている。
論文 参考訳(メタデータ) (2021-09-08T19:32:42Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。