論文の概要: The Conformer Encoder May Reverse the Time Dimension
- arxiv url: http://arxiv.org/abs/2410.00680v1
- Date: Tue, 1 Oct 2024 13:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:25:20.103454
- Title: The Conformer Encoder May Reverse the Time Dimension
- Title(参考訳): コンバータエンコーダは時間次元を逆転させる可能性がある
- Authors: Robin Schmitt, Albert Zeyer, Mohammad Zeineldeen, Ralf Schlüter, Hermann Ney,
- Abstract要約: 我々はデコーダのクロスアテンション機構の初期動作を分析し、コンバータエンコーダの自己アテンションが初期フレームと他のすべての情報フレームとの接続を構築することを奨励することを発見した。
本稿では,このフリップを回避する方法とアイデアを提案する。
- 参考スコア(独自算出の注目度): 53.9351497436903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We sometimes observe monotonically decreasing cross-attention weights in our Conformer-based global attention-based encoder-decoder (AED) models. Further investigation shows that the Conformer encoder internally reverses the sequence in the time dimension. We analyze the initial behavior of the decoder cross-attention mechanism and find that it encourages the Conformer encoder self-attention to build a connection between the initial frames and all other informative frames. Furthermore, we show that, at some point in training, the self-attention module of the Conformer starts dominating the output over the preceding feed-forward module, which then only allows the reversed information to pass through. We propose several methods and ideas of how this flipping can be avoided. Additionally, we investigate a novel method to obtain label-frame-position alignments by using the gradients of the label log probabilities w.r.t. the encoder input frames.
- Abstract(参考訳): コンフォーマーをベースとしたグローバルアテンションベースのエンコーダデコーダ(AED)モデルでは,単調にクロスアテンション重みを減少させることがある。
さらなる調査により、コンバータエンコーダは時間次元のシーケンスを内部的に反転させる。
我々はデコーダのクロスアテンション機構の初期動作を分析し、コンバータエンコーダの自己アテンションが初期フレームと他のすべての情報フレームとの接続を構築することを奨励することを発見した。
さらに、トレーニングのある時点で、コンフォーマーの自己保持モジュールが、前回のフィードフォワードモジュールよりも出力を優先し始め、逆情報のみを通過させることを示す。
本稿では,このフリップを回避する方法とアイデアを提案する。
さらに,エンコーダ入力フレームに対するラベルログ確率の勾配を用いて,ラベルフレーム配置アライメントを求める新しい手法について検討する。
関連論文リスト
- Key Frame Mechanism For Efficient Conformer Based End-to-end Speech
Recognition [9.803556181225193]
エンドツーエンドの自動音声認識のためのバックボーンネットワークとしてのコンフォーマーは、最先端の性能を達成した。
しかし、Conformerベースのモデルは、自己認識メカニズムの問題に直面している。
キーフレームを用いた自己注意機構の計算量を削減する新しい手法であるキーフレームベースの自己注意機構(KFSA)を導入する。
論文 参考訳(メタデータ) (2023-10-23T13:55:49Z) - Chunked Attention-based Encoder-Decoder Model for Streaming Speech
Recognition [42.04873382667665]
本稿では,デコーダ,あるいはデコーダとデコーダのいずれにおいても,チャンクと呼ばれる既定の固定サイズのウィンドウで動作する,ストリーム可能な注目型エンコーダ・デコーダモデルについて検討する。
特別なエンディング・オブ・チャンクのシンボルは、あるチャンクから次のチャンクへと進化し、従来のエンディング・オブ・シーケンスのシンボルを効果的に置き換える。
提案モデルでは,非可読な変種と比較して競争性能を保ち,長文音声に非常によく対応していることがわかった。
論文 参考訳(メタデータ) (2023-09-15T14:36:24Z) - Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving [74.28510044056706]
既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。
本研究は,この問題を2つの原則で緩和することを目的としている。
まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
論文 参考訳(メタデータ) (2023-05-10T15:22:02Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - Sparsity and Sentence Structure in Encoder-Decoder Attention of
Summarization Systems [38.672160430296536]
トランスフォーマーモデルは、要約を含む幅広いNLPタスクにおいて最先端の結果を得た。
これまでの研究は、エンコーダの二次的自己保持機構という、重要なボトルネックに重点を置いてきた。
この研究はトランスのエンコーダ・デコーダのアテンション機構に焦点を当てている。
論文 参考訳(メタデータ) (2021-09-08T19:32:42Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。