論文の概要: Multi-Stream Transformers
- arxiv url: http://arxiv.org/abs/2107.10342v1
- Date: Wed, 21 Jul 2021 20:16:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 23:42:02.982089
- Title: Multi-Stream Transformers
- Title(参考訳): マルチストリームトランス
- Authors: Mikhail Burtsev and Anna Rumshisky
- Abstract要約: トランスフォーマーベースのエンコーダデコーダモデルは、各エンコーダ層の後、融合トークン単位の表現を生成する。
本稿では,エンコーダが符号化プロセスの最後に組み合わされた代替仮説の保存と探索を可能にする効果について検討する。
- 参考スコア(独自算出の注目度): 10.633944207679274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based encoder-decoder models produce a fused token-wise
representation after every encoder layer. We investigate the effects of
allowing the encoder to preserve and explore alternative hypotheses, combined
at the end of the encoding process. To that end, we design and examine a
$\textit{Multi-stream Transformer}$ architecture and find that splitting the
Transformer encoder into multiple encoder streams and allowing the model to
merge multiple representational hypotheses improves performance, with further
improvement obtained by adding a skip connection between the first and the
final encoder layer.
- Abstract(参考訳): トランスフォーマーベースのエンコーダデコーダモデルは、各エンコーダ層の後、融合トークン単位の表現を生成する。
本稿では,エンコーダが符号化プロセスの最後に組み合わされた代替仮説の保存と探索を可能にする効果について検討する。
そこで我々は、$\textit{Multi-stream Transformer}$アーキテクチャの設計と検討を行い、Transformerエンコーダを複数のエンコーダストリームに分割し、複数の表現仮説をマージできるようにすることで性能が向上し、第1層と最終エンコーダ層の間にスキップ接続を追加することでさらなる改善が得られた。
関連論文リスト
- DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers [6.405360669408265]
本稿では,エンコーダ・デコーダ変換器を簡易に解析する手法を提案する。
LogitLens(デコーダのみのトランスフォーマー)にインスパイアされたこの手法では、デコーダが中間エンコーダ層を横断的に表現できるようにする。
質問応答,論理的推論,音声認識,機械翻訳を訓練したモデルに適用したDecoderLensの結果を報告する。
論文 参考訳(メタデータ) (2023-10-05T17:04:59Z) - Tighter Bounds on the Expressivity of Transformer Encoders [9.974865253097127]
固定精度変圧器エンコーダの上位境界と変圧器エンコーダの下位境界とを同時に有する量子化器を数える一階述語論理の変種を同定する。
これにより、トランスフォーマーエンコーダが認識する言語の正確なキャラクタリゼーションに、これまでよりもずっと近いものになります。
論文 参考訳(メタデータ) (2023-01-25T18:05:55Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for
Fine-Resolution Remote Sensing Images [6.171417925832851]
Swin Transformerをバックボーンとして導入し、コンテキスト情報を完全に抽出します。
また、高密度接続特徴集合モジュール(DCFAM)と呼ばれる新しいデコーダを設計し、解像度を復元し、セグメンテーションマップを生成する。
論文 参考訳(メタデータ) (2021-04-25T11:34:22Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Balancing Cost and Benefit with Tied-Multi Transformers [24.70761584719857]
シーケンス・ツー・シーケンス・モデリングでは、N層エンコーダの最後の層の出力をM層デコーダに供給し、最後のデコーダ層の出力を用いて損失を算出する。
提案手法はNxM損失からなる単一損失を計算し,各損失をNエンコーダ層に接続されたMデコーダ層の出力から算出する。
このようなモデルは、エンコーダ層とデコーダ層の数が異なるNxMモデルを仮定し、エンコーダ層とデコーダ層の最大数より少ないデコードに使用できる。
論文 参考訳(メタデータ) (2020-02-20T08:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。