論文の概要: IOT: Instance-wise Layer Reordering for Transformer Structures
- arxiv url: http://arxiv.org/abs/2103.03457v1
- Date: Fri, 5 Mar 2021 03:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 07:43:48.531264
- Title: IOT: Instance-wise Layer Reordering for Transformer Structures
- Title(参考訳): iot: トランスフォーマー構造のためのインスタンス単位のレイヤリオーダ
- Authors: Jinhua Zhu, Lijun Wu, Yingce Xia, Shufang Xie, Tao Qin, Wengang Zhou,
Houqiang Li, Tie-Yan Liu
- Abstract要約: トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
- 参考スコア(独自算出の注目度): 173.39918590438245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With sequentially stacked self-attention, (optional) encoder-decoder
attention, and feed-forward layers, Transformer achieves big success in natural
language processing (NLP), and many variants have been proposed. Currently,
almost all these models assume that the layer order is fixed and kept the same
across data samples. We observe that different data samples actually favor
different orders of the layers. Based on this observation, in this work, we
break the assumption of the fixed layer order in the Transformer and introduce
instance-wise layer reordering into the model structure. Our Instance-wise
Ordered Transformer (IOT) can model variant functions by reordered layers,
which enables each sample to select the better one to improve the model
performance under the constraint of almost the same number of parameters. To
achieve this, we introduce a light predictor with negligible parameter and
inference cost to decide the most capable and favorable layer order for any
input sequence. Experiments on 3 tasks (neural machine translation, abstractive
summarization, and code generation) and 9 datasets demonstrate consistent
improvements of our method. We further show that our method can also be applied
to other architectures beyond Transformer. Our code is released at Github.
- Abstract(参考訳): 順次積み重ねられた自己保持、(任意)エンコーダデコーダの注意、およびフィードフォワード層により、Transformerは自然言語処理(NLP)で大きな成功を収め、多くのバリエーションが提案されています。
現在、これらのモデルのほとんどは、レイヤ順序が固定され、データサンプル間で同じ状態に保つと仮定しています。
異なるデータサンプルが実際に異なる層の順序を好むのを観察します。
この観察に基づいて、本研究では、トランスフォーマの固定層オーダーの仮定を分解し、モデル構造にインスタンス単位の層再順序付けを導入する。
当社のIOT(Instance-wise Ordered Transformer)は、再順序化層による可変関数のモデル化が可能であり、各サンプルは、ほぼ同じ数のパラメータの制約の下でモデルのパフォーマンスを向上させるために、より良いものを選択することができます。
そこで本研究では,任意の入力列に対して最も有能で好適な層順を決定するために,無視可能なパラメータと推論コストを持つ光予測器を提案する。
3つのタスク(ニューラル機械翻訳、抽象要約、コード生成)と9つのデータセットに関する実験は、この方法の一貫した改善を示している。
さらに、この方法がTransformer以外のアーキテクチャにも適用できることも示しています。
私たちのコードはgithubでリリースされています。
関連論文リスト
- Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Exploring vision transformer layer choosing for semantic segmentation [1.2891210250935146]
適応融合と特徴選択のためのネックネットワークであるViTControllerを提案する。
提案手法の有効性を,異なるデータセットとモデルを用いて検証する。
我々の方法はプラグインモジュールとしても使え、異なるネットワークに挿入できる。
論文 参考訳(メタデータ) (2023-05-02T09:29:12Z) - Jump to Conclusions: Short-Cutting Transformers With Linear Transformations [60.37563766047492]
トランスフォーマーベースの言語モデルは、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
これは、モデルの内部決定過程と、その中間表現の有用性を曖昧にする。
線形変換を用いた簡単な鋳造法を提案する。
論文 参考訳(メタデータ) (2023-03-16T16:10:16Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - A Reinforcement Learning Approach for Sequential Spatial Transformer
Networks [6.585049648605185]
我々は、このタスクをマルコフ決定プロセス(MDP)として定式化し、このシーケンシャルな意思決定問題を解決するためにRLを使用する。
この方法では、サンプリングモジュールの微分可能性に縛られません。
MNISTデータセットとFashion-MNISTデータセットを用いて,本手法の有効性を検証するために,複数の実験を設計する。
論文 参考訳(メタデータ) (2021-06-27T17:41:17Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z) - Self-Supervised Variational Auto-Encoders [10.482805367361818]
自己教師付き変分自動エンコーダ(self-supervised Variational Auto-Encoder)と呼ばれる新しい生成モデルについて述べる。
このモデルのクラスは、目的関数を単純化しながら、条件付きサンプリングと条件なしサンプリングの両方を実行することができる。
本稿では,3つのベンチマーク画像データ(Cifar10, Imagenette64, CelebA)に対する提案手法の性能について述べる。
論文 参考訳(メタデータ) (2020-10-05T13:42:28Z) - schuBERT: Optimizing Elements of BERT [22.463154358632472]
我々は、より軽量なモデルを得るため、BERTのアーキテクチャ選択を再考する。
アルゴリズムによって選択された正しい設計次元を減らし,より効率的な光BERTモデルが得られることを示す。
特に、私たちのschuBERTは、3つのエンコーダ層を持つBERTと比較して、GLUEとSQuADデータセットの平均精度を6.6%以上提供しています。
論文 参考訳(メタデータ) (2020-05-09T21:56:04Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。