論文の概要: State Spaces Aren't Enough: Machine Translation Needs Attention
- arxiv url: http://arxiv.org/abs/2304.12776v1
- Date: Tue, 25 Apr 2023 12:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 20:43:29.371868
- Title: State Spaces Aren't Enough: Machine Translation Needs Attention
- Title(参考訳): 状態空間が不十分:機械翻訳に注意が必要
- Authors: Ali Vardasbi, Telmo Pessoa Pires, Robin M. Schmidt, Stephan Peitz
- Abstract要約: 本研究では,構造化状態空間(S4)を機械翻訳(MT)に適用する。
S4 は Transformer に約4 BLEU の遅延があり、長い文に反故意に苦しむ。
このギャップは、S4が完全なソース文を単一の隠れ状態で要約できないために生じるものであることを示す。
- 参考スコア(独自算出の注目度): 4.138783926370621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured State Spaces for Sequences (S4) is a recently proposed sequence
model with successful applications in various tasks, e.g. vision, language
modeling, and audio. Thanks to its mathematical formulation, it compresses its
input to a single hidden state, and is able to capture long range dependencies
while avoiding the need for an attention mechanism. In this work, we apply S4
to Machine Translation (MT), and evaluate several encoder-decoder variants on
WMT'14 and WMT'16. In contrast with the success in language modeling, we find
that S4 lags behind the Transformer by approximately 4 BLEU points, and that it
counter-intuitively struggles with long sentences. Finally, we show that this
gap is caused by S4's inability to summarize the full source sentence in a
single hidden state, and show that we can close the gap by introducing an
attention mechanism.
- Abstract(参考訳): 構造化状態空間 (Structured State Spaces for Sequences, S4) は、視覚、言語モデリング、オーディオなどの様々なタスクで成功したシーケンスモデルである。
数学的定式化のおかげで、入力を1つの隠れた状態に圧縮し、注意のメカニズムを必要とせずに、長距離の依存関係をキャプチャできる。
本研究では,S4を機械翻訳(MT)に適用し,WMT'14とWMT'16のエンコーダ・デコーダの変種を評価する。
言語モデリングの成功とは対照的に、S4 は Transformer の約4 BLEU ポイントで遅れており、長文に反故意に苦労している。
最後に、このギャップは、s4が完全なソース文を単一の隠れ状態において要約できないことによるものであり、注意機構を導入することでギャップを閉じることができることを示す。
関連論文リスト
- IMSSA: Deploying modern state-space models on memristive in-memory compute hardware [0.15268600910098268]
ディープラーニングにおける重要な課題は、長い時間的シーケンスを処理することだ。
トランスフォーマーはこのタスクの最先端になったが、過剰なメモリ要求に悩まされている。
構造化状態空間シーケンシャル(S4)モデルが最近登場し、非常に長いシーケンスコンテキストの処理を可能にしながら、固定されたメモリ状態を提供する。
我々は,S4Dモデルのサイズと計算要求を大幅に削減し,S4モデルのパワーをエッジハードウェアにもたらすことを目的としている。
論文 参考訳(メタデータ) (2024-12-28T16:58:31Z) - Selective Structured State-Spaces for Long-Form Video Understanding [15.993227540449011]
本稿では,軽量マスク生成器を用いて情報化画像トークンを適応的に選択するSelective S4(S5)モデルを提案する。
トランスにおける従来のマスクベースのトークン削減手法とは異なり、S5モデルは高密度自己注意計算を回避している。
我々のアプローチは、従来の最先端のS4モデルを最大9.6%の精度で改善し、メモリフットプリントを23%削減する。
論文 参考訳(メタデータ) (2023-03-25T17:47:12Z) - Learning Trajectory-Word Alignments for Video-Language Tasks [96.62902216727548]
本稿では,TW-BERTを用いてトラジェクティブ・ワードアライメントを学習し,ビデオ言語タスクの解法を提案する。
このようなアライメントは、新しく設計されたトラジェクトリ・トゥ・ワード(T2W)の注意によって学習される。
また,ビデオエンコーダとテキストエンコーダによって計算された埋め込み空間を埋め込むための,きめ細かなアライメント前フューズ戦略を提案する。
論文 参考訳(メタデータ) (2023-01-05T08:21:01Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Long Range Language Modeling via Gated State Spaces [67.64091993846269]
本稿では,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点をあてる。
Gated State Space (GSS) と呼ばれる新しい層を提案し、S4の対角線よりもかなり高速に訓練可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T01:50:18Z) - On the Parameterization and Initialization of Diagonal State Space
Models [35.68370606343843]
対角状態空間モデルのパラメータ化と初期化について述べる。
S4の行列の対角制限は、無限状態次元の極限において、驚くほど同じカーネルを回復することを示す。
論文 参考訳(メタデータ) (2022-06-23T17:58:39Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Diagonal State Spaces are as Effective as Structured State Spaces [3.8276199743296906]
音声コマンドのデータセット上での音声分類は、概念的にシンプルで実装が容易でありながら、Long Range Arenaタスク上でのS4のパフォーマンスと一致することを示す。
本研究は,低ランク補正を伴わずともS4の性能に一致できることを示し,状態行列を対角線と仮定する。
論文 参考訳(メタデータ) (2022-03-27T16:30:33Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。