論文の概要: Hierarchical Attention Encoder Decoder
- arxiv url: http://arxiv.org/abs/2306.01070v1
- Date: Thu, 1 Jun 2023 18:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 18:22:50.837703
- Title: Hierarchical Attention Encoder Decoder
- Title(参考訳): 階層型注意エンコーダデコーダ
- Authors: Asier Mujika
- Abstract要約: 自己回帰モデリングは、多くの実世界の応用を持つ複雑で斬新なシーケンスを生成することができる。
これらのモデルはアウトプットを自動回帰的に生成しなければなりません。
階層型リカレントデコーダアーキテクチャに基づくモデルを提案する。
- 参考スコア(独自算出の注目度): 2.4366811507669115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models have shown that autoregressive
modeling can generate complex and novel sequences that have many real-world
applications. However, these models must generate outputs autoregressively,
which becomes time-consuming when dealing with long sequences. Hierarchical
autoregressive approaches that compress data have been proposed as a solution,
but these methods still generate outputs at the original data frequency,
resulting in slow and memory-intensive models. In this paper, we propose a
model based on the Hierarchical Recurrent Encoder Decoder (HRED) architecture.
This model independently encodes input sub-sequences without global context,
processes these sequences using a lower-frequency model, and decodes outputs at
the original data frequency. By interpreting the encoder as an implicitly
defined embedding matrix and using sampled softmax estimation, we develop a
training algorithm that can train the entire model without a high-frequency
decoder, which is the most memory and compute-intensive part of hierarchical
approaches. In a final, brief phase, we train the decoder to generate data at
the original granularity. Our algorithm significantly reduces memory
requirements for training autoregressive models and it also improves the total
training wall-clock time.
- Abstract(参考訳): 近年の大規模言語モデルの進歩により、自己回帰モデリングは多くの実世界のアプリケーションを持つ複雑で新しいシーケンスを生成することができる。
しかし、これらのモデルはアウトプットを自動回帰的に生成し、長いシーケンスを扱うのに時間がかかる。
圧縮データを圧縮する階層的自己回帰的アプローチが提案されているが、これらの手法は依然として元のデータ周波数で出力を生成し、低速かつメモリ集約的なモデルとなる。
本稿では,階層型再帰エンコーダデコーダ(hred)アーキテクチャに基づくモデルを提案する。
このモデルは、グローバルコンテキストのない入力サブシーケンスを独立に符号化し、これらのシーケンスを低周波モデルを用いて処理し、元のデータ周波数で出力を復号する。
エンコーダを暗黙的に定義された埋め込み行列として解釈し、サンプルソフトマックス推定を用いて、階層的アプローチの最もメモリと計算集約的な部分である高周波デコーダを使わずにモデル全体を訓練できる訓練アルゴリズムを開発する。
最後の短いフェーズでは、デコーダをトレーニングして、元の粒度でデータを生成する。
本アルゴリズムは,自己回帰モデルの学習に必要なメモリを著しく削減し,また,壁面の総時間も改善する。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Are We Using Autoencoders in a Wrong Way? [3.110260251019273]
オートエンコーダは次元減少、異常検出、特徴抽出に使用される。
潜在空間の形状を変更する不完全なオートエンコーダの標準トレーニングを再考した。
また,データセット全体からランダムサンプルを再構成する場合の潜伏空間の挙動についても検討した。
論文 参考訳(メタデータ) (2023-09-04T11:22:43Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Generative time series models using Neural ODE in Variational
Autoencoders [0.0]
生成時系列モデリングのための変分オートエンコーダ設定にニューラル正規微分方程式を実装した。
開発と研究を容易にするために、コードに対するオブジェクト指向のアプローチが採られた。
論文 参考訳(メタデータ) (2022-01-12T14:38:11Z) - Towards Generating Real-World Time Series Data [52.51620668470388]
時系列データ生成のための新しい生成フレームワーク - RTSGANを提案する。
RTSGANは、時系列インスタンスと固定次元潜在ベクトルの間のマッピングを提供するエンコーダデコーダモジュールを学習する。
不足した値の時系列を生成するために、RTSGANに観測埋め込み層と決定・生成デコーダを更に装備する。
論文 参考訳(メタデータ) (2021-11-16T11:31:37Z) - Anytime Sampling for Autoregressive Models via Ordered Autoencoding [88.01906682843618]
自動回帰モデルは画像生成や音声生成などのタスクに広く使われている。
これらのモデルのサンプリングプロセスは割り込みを許さず、リアルタイムの計算資源に適応できない。
いつでもサンプリングできる新しい自動回帰モデルファミリーを提案します。
論文 参考訳(メタデータ) (2021-02-23T05:13:16Z) - End-to-end Sinkhorn Autoencoder with Noise Generator [10.008055997630304]
本稿では,効率的なデータ収集シミュレーションのためのノイズ発生器を備えた新しいエンド・ツー・エンドのシンクホーンオートエンコーダを提案する。
提案手法は,LHCにおけるALICE実験のZero Degree Calorimetersによるシミュレーションデータの挑戦的データセットにおいて,競合するアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-06-11T18:04:10Z) - Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。
本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。
このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文 参考訳(メタデータ) (2020-06-01T17:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。