論文の概要: OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization
- arxiv url: http://arxiv.org/abs/2501.18793v1
- Date: Thu, 30 Jan 2025 22:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:10.579502
- Title: OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization
- Title(参考訳): OT-Transformer: 最適輸送規則化を備えた連続時間変圧器アーキテクチャ
- Authors: Kelvin Kan, Xingjian Li, Stanley Osher,
- Abstract要約: 制御方程式が変圧器ブロックによってパラメータ化される力学系を考える。
最適輸送理論を利用してトレーニング問題を正規化し、トレーニングの安定性を高め、結果として得られるモデルの一般化を改善する。
- 参考スコア(独自算出の注目度): 1.7180235064112577
- License:
- Abstract: Transformers have achieved state-of-the-art performance in numerous tasks. In this paper, we propose a continuous-time formulation of transformers. Specifically, we consider a dynamical system whose governing equation is parametrized by transformer blocks. We leverage optimal transport theory to regularize the training problem, which enhances stability in training and improves generalization of the resulting model. Moreover, we demonstrate in theory that this regularization is necessary as it promotes uniqueness and regularity of solutions. Our model is flexible in that almost any existing transformer architectures can be adopted to construct the dynamical system with only slight modifications to the existing code. We perform extensive numerical experiments on tasks motivated by natural language processing, image classification, and point cloud classification. Our experimental results show that the proposed method improves the performance of its discrete counterpart and outperforms relevant comparing models.
- Abstract(参考訳): トランスフォーマーは多くのタスクで最先端のパフォーマンスを達成した。
本稿では,変圧器の連続時間定式化を提案する。
具体的には、制御方程式が変圧器ブロックによってパラメータ化される力学系を考える。
最適輸送理論を利用してトレーニング問題を正規化し、トレーニングの安定性を高め、結果として得られるモデルの一般化を改善する。
さらに、この正則化は、解の特異性と正則性を促進するため、理論上必要であることを示す。
我々のモデルは柔軟であり、既存のコードにわずかな変更を加えるだけで、動的システムを構築するために、ほとんどの既存のトランスフォーマーアーキテクチャを採用することができる。
自然言語処理,画像分類,点雲分類を動機とするタスクについて,広範囲にわたる数値実験を行った。
実験結果から,提案手法は個々の比較モデルの性能を向上し,比較モデルよりも優れることがわかった。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Continuous Spatiotemporal Transformers [2.485182034310304]
連続時間変換器(Continuous Stemporal Transformer, CST)は, 連続系をモデル化するためのトランスフォーマアーキテクチャである。
この新しいフレームワークは、ソボレフ空間における最適化による連続的な表現と出力を保証する。
我々は従来の変圧器や他のスムーズな時相力学モデリング手法に対してCSTをベンチマークし、合成および実システムにおける多くのタスクにおいて優れた性能を達成する。
論文 参考訳(メタデータ) (2023-01-31T00:06:56Z) - BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文 参考訳(メタデータ) (2022-06-02T01:54:58Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。