論文の概要: On Biasing Transformer Attention Towards Monotonicity
- arxiv url: http://arxiv.org/abs/2104.03945v1
- Date: Thu, 8 Apr 2021 17:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 14:49:12.228097
- Title: On Biasing Transformer Attention Towards Monotonicity
- Title(参考訳): モノトニック性へのバイアス変換器の注意について
- Authors: Annette Rios, Chantal Amrhein, No\"emi Aepli, Rico Sennrich
- Abstract要約: 標準注意機構と互換性のある単調性損失関数を導入し,いくつかのシーケンスからシーケンスへのタスクでテストする。
実験により、ほとんど単調な振る舞いが達成できることが示される。
一般的な単調性はトランスマルチヘッドの注意に役立ちませんが、単調な行動に偏っているのは、ヘッドのサブセットのみです。
- 参考スコア(独自算出の注目度): 20.205388243570003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many sequence-to-sequence tasks in natural language processing are roughly
monotonic in the alignment between source and target sequence, and previous
work has facilitated or enforced learning of monotonic attention behavior via
specialized attention functions or pretraining. In this work, we introduce a
monotonicity loss function that is compatible with standard attention
mechanisms and test it on several sequence-to-sequence tasks:
grapheme-to-phoneme conversion, morphological inflection, transliteration, and
dialect normalization. Experiments show that we can achieve largely monotonic
behavior. Performance is mixed, with larger gains on top of RNN baselines.
General monotonicity does not benefit transformer multihead attention, however,
we see isolated improvements when only a subset of heads is biased towards
monotonic behavior.
- Abstract(参考訳): 自然言語処理におけるシークエンス・ツー・シークエンス・タスクの多くは、ソースシーケンスとターゲットシーケンスのアライメントにおいて概ね単調であり、以前の研究は特定の注意機能や事前学習を通じて単調な注意行動の学習を促進または強制してきた。
本研究では,標準的な注意機構と適合する単調性損失関数を導入し,グラニュムから音素への変換,形態的屈折,音訳,方言正規化など,いくつかのシーケンスからシーケンスへのタスクでテストする。
実験により、ほとんど単調な振る舞いが達成できることが示される。
パフォーマンスは混在しており、RNNベースラインよりも大きく向上している。
一般的な単調性はトランスフォーマーのマルチヘッドの注意を引かないが、頭部のサブセットのみが単調な振る舞いに偏っている場合、孤立した改善が見られる。
関連論文リスト
- How to address monotonicity for model risk management? [1.0878040851638]
本稿では, 個々の単調性, 弱い対単調性, 強い対単調性という, 3種類の単調性の存在下での透明ニューラルネットワークについて検討する。
透明性を維持しながらモノトニック性を達成する手段として,ニューラル付加モデルのモノトニックグローブを提案する。
論文 参考訳(メタデータ) (2023-04-28T04:21:02Z) - Constrained Monotonic Neural Networks [0.685316573653194]
金融や医療といった多くの重要な分野におけるニューラルネットワークの採用は、その予測を説明する必要性によって妨げられている。
モノトニック性制約は、現実世界のシナリオで最も要求された特性の1つである。
我々は、$mathbbRn$ のコンパクト部分集合上の任意の連続単調関数を近似できることを示した。
論文 参考訳(メタデータ) (2022-05-24T04:26:10Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - A study of latent monotonic attention variants [65.73442960456013]
エンドツーエンドモデルは音声認識の最先端性能に達するが、グローバルソフトな注意は単調ではない。
本稿では,新しい潜在変数を導入することで,単調性を導入する数学的にクリーンな解を提案する。
モノトニックモデルがグローバルソフトアテンションモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-03-30T22:35:56Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z) - Counterexample-Guided Learning of Monotonic Neural Networks [32.73558242733049]
単調性制約に注目するが、これは一般的であり、特定の入力特徴の値が増加するにつれて関数の出力が増加することが要求される。
本研究では,予測時の単調性制約を確実に強制する逆例誘導手法を開発した。
深層学習の帰納バイアスとして単調性を用いる手法も提案する。
論文 参考訳(メタデータ) (2020-06-16T01:04:26Z) - Quantum monotone metrics induced from trace non-increasing maps and
additive noise [0.0]
完全正のトレース非増加(CPTNI)写像と付加雑音の下での単調性を持つ量子単調メトリクスの別の拡張を導入する。
我々の単調測度は、正の作用素に対する直和の加法性、凸性、単調性など、いくつかの自然な性質を持つことを示す。
論文 参考訳(メタデータ) (2020-06-10T09:09:50Z) - Exact Hard Monotonic Attention for Character-Level Transduction [76.66797368985453]
非単調なソフトアテンションを用いたニューラルシークエンス・ツー・シーケンスモデルは、しばしば一般的な単調モデルよりも優れていることを示す。
我々は、厳密な単調性を強制し、トランスデューサの学習中に協調して潜時アライメントを学習するハードアテンションシーケンス・ツー・シーケンス・モデルを開発した。
論文 参考訳(メタデータ) (2019-05-15T17:51:09Z) - Hard Non-Monotonic Attention for Character-Level Transduction [65.17388794270694]
2つの弦間の多くの非単調なアライメントを余剰化するための厳密な指数時間アルゴリズムを導入する。
ソフト・モノトニック・アテンションとハード・ノン・モノトニック・アテンションを実験的に比較したところ、正確なアルゴリズムは近似よりも性能を著しく改善し、ソフト・アテンションよりも優れていた。
論文 参考訳(メタデータ) (2018-08-29T20:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。