論文の概要: Hard Non-Monotonic Attention for Character-Level Transduction
- arxiv url: http://arxiv.org/abs/1808.10024v3
- Date: Tue, 20 Feb 2024 15:36:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 19:34:29.059760
- Title: Hard Non-Monotonic Attention for Character-Level Transduction
- Title(参考訳): 文字レベル変換のためのハード非単調アテンション
- Authors: Shijie Wu, Pamela Shapiro, Ryan Cotterell
- Abstract要約: 2つの弦間の多くの非単調なアライメントを余剰化するための厳密な指数時間アルゴリズムを導入する。
ソフト・モノトニック・アテンションとハード・ノン・モノトニック・アテンションを実験的に比較したところ、正確なアルゴリズムは近似よりも性能を著しく改善し、ソフト・アテンションよりも優れていた。
- 参考スコア(独自算出の注目度): 65.17388794270694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Character-level string-to-string transduction is an important component of
various NLP tasks. The goal is to map an input string to an output string,
where the strings may be of different lengths and have characters taken from
different alphabets. Recent approaches have used sequence-to-sequence models
with an attention mechanism to learn which parts of the input string the model
should focus on during the generation of the output string. Both soft attention
and hard monotonic attention have been used, but hard non-monotonic attention
has only been used in other sequence modeling tasks such as image captioning
(Xu et al., 2015), and has required a stochastic approximation to compute the
gradient. In this work, we introduce an exact, polynomial-time algorithm for
marginalizing over the exponential number of non-monotonic alignments between
two strings, showing that hard attention models can be viewed as neural
reparameterizations of the classical IBM Model 1. We compare soft and hard
non-monotonic attention experimentally and find that the exact algorithm
significantly improves performance over the stochastic approximation and
outperforms soft attention. Code is available at https://github.
com/shijie-wu/neural-transducer.
- Abstract(参考訳): 文字レベル文字列から文字列への変換は、様々なNLPタスクの重要なコンポーネントである。
目的は入力文字列を出力文字列にマッピングすることで、文字列は異なる長さで、異なるアルファベットから取られる文字を持つことができる。
近年のアプローチでは、シーケンス・ツー・シーケンスモデルとアテンション機構を用いて、モデルが出力文字列の生成中にどの部分にフォーカスするかを学習している。
ソフトアテンションとハードモノトニックアテンションの両方が使用されているが、ハード非モノトニックアテンションはイメージキャプション(Xu et al., 2015)のような他のシーケンスモデリングタスクでしか使われておらず、勾配を計算するには確率近似が必要である。
本研究では,二弦間の非単調アライメントの指数数を辺角化するための厳密な多項式時間アルゴリズムを導入し,ハードアライメントモデルが古典ibmモデル1の神経再パラメータ化と見なせることを示した。
ソフト注意とハード非モノトニック注意を実験的に比較した結果, 厳密なアルゴリズムは確率近似よりも性能が著しく向上し, ソフト注意よりも優れることがわかった。
コードはhttps://github.comで入手できる。
ニューラルトランスデューサ(neural-transducer)。
関連論文リスト
- Long Sequence Modeling with Attention Tensorization: From Sequence to Tensor Learning [20.51822826798248]
本稿では、長い入力列をコンパクトなテンソル表現にテンソル化し、各変換次元に注意を向けることで、注意領域を拡大することを提案する。
提案手法は,トークンの依存関係をマルチホップアテンションプロセスとして符号化し,フルアテンションのクロネッカー分解と等価であることを示す。
論文 参考訳(メタデータ) (2024-10-28T11:08:57Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - ChordMixer: A Scalable Neural Attention Model for Sequences with
Different Lengths [9.205331586765613]
可変長の長い列に対する注意をモデル化できる,ChordMixer と呼ばれる単純なニューラルネットワーク構築ブロックを提案する。
このようなブロックを繰り返し適用することは、入力信号を学習対象に向かって混合する効果的なネットワークバックボーンを形成する。
論文 参考訳(メタデータ) (2022-06-12T22:39:41Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Sparse Sinkhorn Attention [93.88158993722716]
Sparse Sinkhorn Attentionを提案する。
本稿では,列上の潜在置換を生成するメタソートネットワークを提案する。
ソートシーケンスが与えられた場合、局所ウィンドウのみを用いて準グロバルアテンションを計算することができる。
論文 参考訳(メタデータ) (2020-02-26T04:18:01Z) - Exact Hard Monotonic Attention for Character-Level Transduction [76.66797368985453]
非単調なソフトアテンションを用いたニューラルシークエンス・ツー・シーケンスモデルは、しばしば一般的な単調モデルよりも優れていることを示す。
我々は、厳密な単調性を強制し、トランスデューサの学習中に協調して潜時アライメントを学習するハードアテンションシーケンス・ツー・シーケンス・モデルを開発した。
論文 参考訳(メタデータ) (2019-05-15T17:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。