論文の概要: ODE Transformer: An Ordinary Differential Equation-Inspired Model for
Sequence Generation
- arxiv url: http://arxiv.org/abs/2203.09176v1
- Date: Thu, 17 Mar 2022 08:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:48:23.944346
- Title: ODE Transformer: An Ordinary Differential Equation-Inspired Model for
Sequence Generation
- Title(参考訳): ODE変換器:正規微分方程式に基づくシーケンス生成モデル
- Authors: Bei Li, Quan Du, Tao Zhou, Yi Jing, Shuhan Zhou, Xin Zeng, Tong Xiao,
JingBo Zhu, Xuebo Liu, Min Zhang
- Abstract要約: 本稿では,Transformer法と数値ODE法との深い関係について検討する。
まず, Transformer の残層ブロックを ODE の高次解として記述できることを示す。
これをきっかけに、我々はODE Transformerという新しいアーキテクチャを設計しました。
- 参考スコア(独自算出の注目度): 44.101125095045326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Residual networks are an Euler discretization of solutions to Ordinary
Differential Equations (ODE). This paper explores a deeper relationship between
Transformer and numerical ODE methods. We first show that a residual block of
layers in Transformer can be described as a higher-order solution to ODE.
Inspired by this, we design a new architecture, {\it ODE Transformer}, which is
analogous to the Runge-Kutta method that is well motivated in ODE. As a natural
extension to Transformer, ODE Transformer is easy to implement and efficient to
use. Experimental results on the large-scale machine translation, abstractive
summarization, and grammar error correction tasks demonstrate the high
genericity of ODE Transformer. It can gain large improvements in model
performance over strong baselines (e.g., 30.77 and 44.11 BLEU scores on the
WMT'14 English-German and English-French benchmarks) at a slight cost in
inference efficiency.
- Abstract(参考訳): 残留ネットワークは通常の微分方程式 (ode) に対する解のオイラー離散化である。
本稿では,変圧器法と数値ode法との関係について検討する。
まず, Transformer の残層ブロックを ODE の高次解として記述できることを示す。
これに触発されて,ode を動機付ける runge-kutta 法に類似した,新しいアーキテクチャである {\it ode transformer} を設計した。
Transformerの自然な拡張として、ODE Transformerの実装は簡単で、使用も効率的です。
大規模機械翻訳,抽象要約,文法誤り訂正タスクの実験結果は,odeトランスフォーマの高汎用性を示している。
強力なベースライン(例えば WMT'14 と WMT'14 で 30.77 と 44.11 BLEU のスコア)よりも若干の推論効率でモデル性能を大幅に向上させることができる。
関連論文リスト
- Graph Transformers Dream of Electric Flow [72.06286909236827]
グラフデータに適用された線形変換器は、正準問題を解くアルゴリズムを実装可能であることを示す。
そこで我々は,これらのグラフアルゴリズムをそれぞれ実装するための明示的な重み設定を提案し,基礎となるアルゴリズムの誤差によって構築したトランスフォーマーの誤差を限定する。
論文 参考訳(メタデータ) (2024-10-22T05:11:45Z) - On Exact Bit-level Reversible Transformers Without Changing Architectures [4.282029766809805]
トレーニングプロセスにおけるメモリ消費を減らすために、可逆的なディープニューラルネットワーク(DNN)が提案されている。
提案するBDIA-transformerはビットレベルのリバーシブルトランスであり,標準アーキテクチャを変更せずに推論を行う。
論文 参考訳(メタデータ) (2024-07-12T08:42:58Z) - Do Efficient Transformers Really Save Computation? [32.919672616480135]
我々は、効率的な変換器、特にスパース変換器と線形変換器の機能と限界に焦点を当てる。
以上の結果から,これらのモデルは一般のDPタスクを解くのに十分な表現力を持っているが,期待とは裏腹に,問題のサイズに合わせてスケールするモデルサイズが必要であることが示唆された。
我々は,これらのモデルが標準のTransformerよりも効率的であるようなDP問題のクラスを同定する。
論文 参考訳(メタデータ) (2024-02-21T17:00:56Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Discovering ordinary differential equations that govern time-series [65.07437364102931]
本研究では, 1つの観測解の時系列データから, スカラー自律常微分方程式(ODE)を記号形式で復元するトランスフォーマーに基づくシーケンス・ツー・シーケンス・モデルを提案する。
提案手法は, 1回に一度, ODE の大規模な事前訓練を行った後, モデルのいくつかの前方通過において, 新たに観測された解の法則を推測することができる。
論文 参考訳(メタデータ) (2022-11-05T07:07:58Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - THG: Transformer with Hyperbolic Geometry [8.895324519034057]
X-former"モデルは、自己注意の2次時間とメモリの複雑さにのみ変更を加える。
ユークリッド空間と双曲空間の両方の利点を生かした,双曲幾何モデル(THG)を提案する。
論文 参考訳(メタデータ) (2021-06-01T14:09:33Z) - ODE Transformer: An Ordinary Differential Equation-Inspired Model for
Neural Machine Translation [25.86053637998726]
本稿では, Transformer の残層ブロックを ODE の高次解として記述できることを示す。
Transformerの自然な拡張として、ODE Transformerは実装が簡単で、パラメータが効率的です。
論文 参考訳(メタデータ) (2021-04-06T06:13:02Z) - N-ODE Transformer: A Depth-Adaptive Variant of the Transformer Using
Neural Ordinary Differential Equations [1.2183405753834562]
ニューラル常微分方程式を用いて、入力依存の時間ステップ数が通常の微分方程式ソルバによって取られるという意味で、深さ適応的なトランスフォーマーの変種を定式化する。
本稿では、標準トランスフォーマーが既知の制限を持つバイナリシーケンスのパリティを決定するという単純な問題について考察する。
しかし、N-ODE変換器の深さ適応性は、パリティ問題の本質的に非局所的な性質に対する対策を提供していない。
論文 参考訳(メタデータ) (2020-10-22T00:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。