論文の概要: Implicit Memory Transformer for Computationally Efficient Simultaneous
Speech Translation
- arxiv url: http://arxiv.org/abs/2307.01381v1
- Date: Mon, 3 Jul 2023 22:20:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 18:57:22.291101
- Title: Implicit Memory Transformer for Computationally Efficient Simultaneous
Speech Translation
- Title(参考訳): 計算効率の良い同時音声翻訳のための命令記憶変換器
- Authors: Matthew Raffel, Lizhong Chen
- Abstract要約: 本稿では,新たな左コンテキスト手法により暗黙的にメモリを保持するImplicit Memory Transformerを提案する。
MuST-Cデータセットの実験では、Implicit Memory Transformerがエンコーダのフォワードパスにかなりのスピードアップを提供することが示された。
- 参考スコア(独自算出の注目度): 0.20305676256390928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous speech translation is an essential communication task difficult
for humans whereby a translation is generated concurrently with oncoming speech
inputs. For such a streaming task, transformers using block processing to break
an input sequence into segments have achieved state-of-the-art performance at a
reduced cost. Current methods to allow information to propagate across
segments, including left context and memory banks, have faltered as they are
both insufficient representations and unnecessarily expensive to compute. In
this paper, we propose an Implicit Memory Transformer that implicitly retains
memory through a new left context method, removing the need to explicitly
represent memory with memory banks. We generate the left context from the
attention output of the previous segment and include it in the keys and values
of the current segment's attention calculation. Experiments on the MuST-C
dataset show that the Implicit Memory Transformer provides a substantial
speedup on the encoder forward pass with nearly identical translation quality
when compared with the state-of-the-art approach that employs both left context
and memory banks.
- Abstract(参考訳): 同時音声翻訳は人間にとって重要なコミュニケーション課題であり、対向音声入力と同時に翻訳が生成される。
このようなストリーミング処理のために、ブロック処理を用いて入力シーケンスをセグメントに分割する変換器は、最先端の性能を低コストで達成した。
左のコンテキストやメモリバンクを含むセグメント間で情報を伝達するための現在の方法は、表現が不十分で計算に不必要にコストがかかるため、混乱している。
本稿では,メモリバンクを用いてメモリを明示的に表現する必要をなくし,メモリを暗黙的に保持するImplicit Memory Transformerを提案する。
我々は、前のセグメントの注意出力から左コンテキストを生成し、それを現在のセグメントの注意計算のキーと値に含める。
MuST-Cデータセットの実験によると、Implicit Memory Transformerは、左コンテキストとメモリバンクの両方を利用する最先端のアプローチと比較して、エンコーダのフォワードパスをほぼ同じ翻訳品質で大幅に高速化する。
関連論文リスト
- UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - Complexity of Symbolic Representation in Working Memory of Transformer Correlates with the Complexity of a Task [3.1331371767476366]
本稿では,Transformerモデルデコーダに付加されたシンボリックワーキングメモリの内容について検討する。
翻訳されたテキストキーワードはワーキングメモリに格納され、処理されたテキストに対するメモリ内容の関連性を示す。
メモリに格納されたトークンと音声の部分の多様性は、機械翻訳タスクのためのコーパスの複雑さと相関する。
論文 参考訳(メタデータ) (2024-06-20T11:27:29Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Recurrent Memory Transformer [0.3529736140137003]
メモリ拡張セグメントレベルリカレント変圧器(リカレントメモリ変圧器)について検討する。
入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変更を加えることなくメモリ機構を実装します。
我々のモデルは、より小さなメモリサイズのための言語モデリングにおけるTransformer-XLと同等に動作し、より長いシーケンス処理を必要とするタスクに対して性能を向上する。
論文 参考訳(メタデータ) (2022-07-14T13:00:22Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Streaming Simultaneous Speech Translation with Augmented Memory
Transformer [29.248366441276662]
トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。
本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2020-10-30T18:28:42Z) - Learning to Summarize Long Texts with Memory Compression and Transfer [3.5407857489235206]
本稿では,階層的リカレントニューラルネットワークに基づくエンコーダデコーダアーキテクチャのためのメモリ・ツー・メモリ機構であるMem2Memを紹介する。
我々のメモリ正規化は、よりコンパクトな文表現セットに符号化された入力項目を圧縮する。
論文 参考訳(メタデータ) (2020-10-21T21:45:44Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z) - MART: Memory-Augmented Recurrent Transformer for Coherent Video
Paragraph Captioning [128.36951818335046]
MART(Memory-Augmented Recurrent Transformer)と呼ばれる新しい手法を提案する。
MARTはメモリモジュールを使用してトランスフォーマーアーキテクチャを拡張する。
MARTはベースライン法よりもコヒーレントで繰り返しない段落を生成する。
論文 参考訳(メタデータ) (2020-05-11T20:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。