Fugu-MT 論文翻訳(概要): A multilevel approach to accelerate the training of Transformers

論文の概要: A multilevel approach to accelerate the training of Transformers

arxiv url: http://arxiv.org/abs/2504.18590v1
Date: Thu, 24 Apr 2025 08:23:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:53.89778
Title: A multilevel approach to accelerate the training of Transformers
Title（参考訳）: 変圧器の訓練を高速化するための多段階的アプローチ
Authors: Guillaume Lauga, Maël Chaumette, Edgar Desainte-Maréville, Étienne Lasalle, Arthur Lebeurrier,
Abstract要約: 訓練を加速するために,これらのODE変換器の離散化を適切に変更する方法を提案する。本手法を標準訓練法との比較により実験的に検証した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this article, we investigate the potential of multilevel approaches to accelerate the training of transformer architectures. Using an ordinary differential equation (ODE) interpretation of these architectures, we propose an appropriate way of varying the discretization of these ODE Transformers in order to accelerate the training. We validate our approach experimentally by a comparison with the standard training procedure.
Abstract（参考訳）: 本稿では,トランスアーキテクチャのトレーニングを高速化するためのマルチレベルアプローチの可能性について検討する。これらのアーキテクチャの通常の微分方程式(ODE)解釈を用いて、訓練を加速するためにこれらのODE変換器の離散化を変更する適切な方法を提案する。本手法を標準訓練法との比較により実験的に検証した。

関連論文リスト

Dissecting Multimodal In-Context Learning: Modality Asymmetries and Circuit Dynamics in modern Transformers [59.472505916020936]
コンテクスト内の例から,トランスフォーマーがモダリティ間で情報を関連づけることを学ぶ方法について検討する。現代変圧器におけるユニモーダルICLの原理を再考する。メカニスティック分析では、両方の設定は、ラベルをマッチするインコンテキストの例からコピーするインダクションスタイルのメカニズムに依存している。
論文参考訳（メタデータ） (2026-01-28T17:37:28Z)
Layer-Parallel Training for Transformers [3.799206695592991]
マルチレベル層並列手法を用いたトランスフォーマーの新しいトレーニング手法を提案する。トレーニングの前・後処理フェーズに対するマルチレベル並列インタイムアルゴリズムの適用により,層次元の並列加速度が達成される。我々は、この臨界遷移を検出し、シリアルトレーニングに切り替えるか、階層並列トレーニングの精度を体系的に向上させるアルゴリズムを開発した。
論文参考訳（メタデータ） (2026-01-13T23:12:53Z)
OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization [1.7180235064112577]
制御方程式が変圧器ブロックによってパラメータ化される力学系を考える。最適輸送理論を利用してトレーニング問題を正規化し、トレーニングの安定性を高め、結果として得られるモデルの一般化を改善する。
論文参考訳（メタデータ） (2025-01-30T22:52:40Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
On the Training Convergence of Transformers for In-Context Classification of Gaussian Mixtures [20.980349268151546]
本研究は、文脈内分類タスクのための変圧器の訓練力学を理論的に研究することを目的とする。本研究では, ある仮定の下でのガウス混合の文脈内分類において, 勾配勾配から学習した単層変圧器が線形速度で大域的最適モデルに収束することを示した。
論文参考訳（メタデータ） (2024-10-15T16:57:14Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Looped Transformers are Better at Learning Learning Algorithms [16.98720552888865]
本稿ではループ変換器アーキテクチャとその学習手法について述べる。実験結果から, ループ変換器は標準変圧器に匹敵する性能を実現することが示唆された。
論文参考訳（メタデータ） (2023-11-21T08:32:38Z)
Predicting Ordinary Differential Equations with Transformers [65.07437364102931]
単一溶液軌道の不規則サンプリングおよび雑音観測から,スカラー常微分方程式(ODE)を記号形式で復元するトランスフォーマーに基づくシーケンス・ツー・シーケンス・モデルを開発した。提案手法は, 1回に一度, ODE の大規模な事前訓練を行った後, モデルのいくつかの前方通過において, 新たな観測解の法則を推測することができる。
論文参考訳（メタデータ） (2023-07-24T08:46:12Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
Approximation Rate of the Transformer Architecture for Sequence Modeling [18.166959969957315]
非線型関係のクラスを考察し、トランスフォーマーのジャクソン型近似率推定を明示するために、複雑性尺度の新たな概念を同定する。この速度はトランスフォーマーの構造特性を明らかにし、それが近似に最も適しているシーケンシャルな関係のタイプを示唆する。
論文参考訳（メタデータ） (2023-05-29T10:56:36Z)
Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。 Transformerモデルをより効率的にすることに注力している。
論文参考訳（メタデータ） (2023-02-27T18:18:13Z)
ODE Transformer: An Ordinary Differential Equation-Inspired Model for Neural Machine Translation [25.86053637998726]
本稿では, Transformer の残層ブロックを ODE の高次解として記述できることを示す。 Transformerの自然な拡張として、ODE Transformerは実装が簡単で、パラメータが効率的です。
論文参考訳（メタデータ） (2021-04-06T06:13:02Z)
Interpolation Technique to Speed Up Gradients Propagation in Neural ODEs [71.26657499537366]
本稿では,ニューラルネットワークモデルにおける勾配の効率的な近似法を提案する。我々は、分類、密度推定、推論近似タスクにおいて、ニューラルODEをトレーニングするリバースダイナミック手法と比較する。
論文参考訳（メタデータ） (2020-03-11T13:15:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。