論文の概要: ODE Transformer: An Ordinary Differential Equation-Inspired Model for
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2104.02308v1
- Date: Tue, 6 Apr 2021 06:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:12:59.820356
- Title: ODE Transformer: An Ordinary Differential Equation-Inspired Model for
Neural Machine Translation
- Title(参考訳): ODE変換器:ニューラルネットワーク翻訳のための正規微分方程式モデル
- Authors: Bei Li, Quan Du, Tao Zhou, Shuhan Zhou, Xin Zeng, Tong Xiao, Jingbo
Zhu
- Abstract要約: 本稿では, Transformer の残層ブロックを ODE の高次解として記述できることを示す。
Transformerの自然な拡張として、ODE Transformerは実装が簡単で、パラメータが効率的です。
- 参考スコア(独自算出の注目度): 25.86053637998726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been found that residual networks are an Euler discretization of
solutions to Ordinary Differential Equations (ODEs). In this paper, we explore
a deeper relationship between Transformer and numerical methods of ODEs. We
show that a residual block of layers in Transformer can be described as a
higher-order solution to ODEs. This leads us to design a new architecture (call
it ODE Transformer) analogous to the Runge-Kutta method that is well motivated
in ODEs. As a natural extension to Transformer, ODE Transformer is easy to
implement and parameter efficient. Our experiments on three WMT tasks
demonstrate the genericity of this model, and large improvements in performance
over several strong baselines. It achieves 30.76 and 44.11 BLEU scores on the
WMT'14 En-De and En-Fr test data. This sets a new state-of-the-art on the
WMT'14 En-Fr task.
- Abstract(参考訳): 残留ネットワークは正規微分方程式(ODE)に対する解のオイラー離散化であることが判明した。
本稿では, 変圧器とodeの数値的手法との関係について検討する。
本稿では, Transformer の残層ブロックを ODE の高次解として記述できることを示す。
これにより、ODEでよく動機付けられたRunge-Kuttaメソッドに似た新しいアーキテクチャ(ODE Transformerと呼ぶ)を設計できます。
トランスフォーマーの自然な拡張として、ode transformerは実装が容易でパラメータ効率がよい。
3つのWMTタスクに関する実験は、このモデルの汎用性を実証し、いくつかの強いベースラインに対する性能を大幅に改善した。
WMT'14 En-De と En-Fr のテストデータから 30.76 と 44.11 BLEU のスコアを得る。
これにより、WMT'14 En-Frタスクに新たな最先端技術が設定される。
関連論文リスト
- On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - Do Efficient Transformers Really Save Computation? [32.919672616480135]
我々は、効率的な変換器、特にスパース変換器と線形変換器の機能と限界に焦点を当てる。
以上の結果から,これらのモデルは一般のDPタスクを解くのに十分な表現力を持っているが,期待とは裏腹に,問題のサイズに合わせてスケールするモデルサイズが必要であることが示唆された。
我々は,これらのモデルが標準のTransformerよりも効率的であるようなDP問題のクラスを同定する。
論文 参考訳(メタデータ) (2024-02-21T17:00:56Z) - HAMLET: Graph Transformer Neural Operator for Partial Differential Equations [13.970458554623939]
本稿では、ニューラルネットワークを用いて偏微分方程式(PDE)を解く際の課題を解決するために、新しいグラフトランスフォーマーフレームワークHAMLETを提案する。
このフレームワークは、モジュラー入力エンコーダを備えたグラフトランスフォーマーを使用して、微分方程式情報をソリューションプロセスに直接組み込む。
特に、HAMLETは、データの複雑さとノイズを増大させ、その堅牢性を示すために、効果的にスケールする。
論文 参考訳(メタデータ) (2024-02-05T21:55:24Z) - Predicting Ordinary Differential Equations with Transformers [65.07437364102931]
単一溶液軌道の不規則サンプリングおよび雑音観測から,スカラー常微分方程式(ODE)を記号形式で復元するトランスフォーマーに基づくシーケンス・ツー・シーケンス・モデルを開発した。
提案手法は, 1回に一度, ODE の大規模な事前訓練を行った後, モデルのいくつかの前方通過において, 新たな観測解の法則を推測することができる。
論文 参考訳(メタデータ) (2023-07-24T08:46:12Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - A Neural ODE Interpretation of Transformer Layers [8.839601328192957]
マルチヘッドアテンションとマルチレイヤパーセプトロン(MLP)レイヤの交互パターンを使用するトランスフォーマーレイヤは、さまざまな機械学習問題に対して効果的なツールを提供する。
我々は、この接続を構築し、トランス層の内部構造を変更することを提案する。
実験により, この簡単な修正により, 複数のタスクにおけるトランスフォーマーネットワークの性能が向上することが示された。
論文 参考訳(メタデータ) (2022-12-12T16:18:58Z) - Discovering ordinary differential equations that govern time-series [65.07437364102931]
本研究では, 1つの観測解の時系列データから, スカラー自律常微分方程式(ODE)を記号形式で復元するトランスフォーマーに基づくシーケンス・ツー・シーケンス・モデルを提案する。
提案手法は, 1回に一度, ODE の大規模な事前訓練を行った後, モデルのいくつかの前方通過において, 新たに観測された解の法則を推測することができる。
論文 参考訳(メタデータ) (2022-11-05T07:07:58Z) - ODE Transformer: An Ordinary Differential Equation-Inspired Model for
Sequence Generation [44.101125095045326]
本稿では,Transformer法と数値ODE法との深い関係について検討する。
まず, Transformer の残層ブロックを ODE の高次解として記述できることを示す。
これをきっかけに、我々はODE Transformerという新しいアーキテクチャを設計しました。
論文 参考訳(メタデータ) (2022-03-17T08:54:31Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - N-ODE Transformer: A Depth-Adaptive Variant of the Transformer Using
Neural Ordinary Differential Equations [1.2183405753834562]
ニューラル常微分方程式を用いて、入力依存の時間ステップ数が通常の微分方程式ソルバによって取られるという意味で、深さ適応的なトランスフォーマーの変種を定式化する。
本稿では、標準トランスフォーマーが既知の制限を持つバイナリシーケンスのパリティを決定するという単純な問題について考察する。
しかし、N-ODE変換器の深さ適応性は、パリティ問題の本質的に非局所的な性質に対する対策を提供していない。
論文 参考訳(メタデータ) (2020-10-22T00:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。