論文の概要: TorchScale: Transformers at Scale
- arxiv url: http://arxiv.org/abs/2211.13184v1
- Date: Wed, 23 Nov 2022 17:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:03:38.765428
- Title: TorchScale: Transformers at Scale
- Title(参考訳): TorchScale: スケールでのトランスフォーマー
- Authors: Shuming Ma, Hongyu Wang, Shaohan Huang, Wenhui Wang, Zewen Chi, Li
Dong, Alon Benhaim, Barun Patra, Vishrav Chaudhary, Xia Song, Furu Wei
- Abstract要約: スケーリングに関するほとんどのオープンソースライブラリは、並列化の改善によるトレーニングや推論の改善に重点を置いている。
私たちは、研究者や開発者がTransformerを効率的に効率的にスケールアップできるオープンソースツールキットであるTorchScaleを紹介します。
- 参考スコア(独自算出の注目度): 109.33387915846177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Transformers have achieved state-of-the-art performance across many
tasks. Most open-source libraries on scaling Transformers focus on improving
training or inference with better parallelization. In this work, we present
TorchScale, an open-source toolkit that allows researchers and developers to
scale up Transformers efficiently and effectively. TorchScale has the
implementation of several modeling techniques, which can improve modeling
generality and capability, as well as training stability and efficiency.
Experimental results on language modeling and neural machine translation
demonstrate that TorchScale can successfully scale Transformers to different
sizes without tears. The library is available at https://aka.ms/torchscale.
- Abstract(参考訳): 大規模トランスフォーマーは多くのタスクで最先端のパフォーマンスを達成した。
スケーリングトランスフォーマーのほとんどのオープンソースライブラリは、トレーニングや推論の改善と並列化の改善に重点を置いている。
本稿では,研究者や開発者が効率的にTransformerをスケールアップできるオープンソースツールキットであるTorchScaleを紹介する。
TorchScaleには,モデリングの汎用性と能力の向上,安定性と効率のトレーニングなど,いくつかのモデリングテクニックが実装されている。
言語モデリングとニューラルマシン翻訳の実験結果は、トーチスケールが涙なしでトランスフォーマーを異なるサイズにスケールできることを示した。
ライブラリはhttps://aka.ms/torchscale.comで入手できる。
関連論文リスト
- The Ingredients for Robotic Diffusion Transformers [47.61690903645525]
我々は,高容量拡散変圧器政策の鍵となる設計決定を同定し,研究し,改善する。
結果として得られるモデルは、複数のロボットエンボディメント上の多様なタスクを効率的に解決することができる。
当社のポリシーは,高度にマルチモーダルな言語アノテートされたALOHA実証データを用いた10時間トレーニングによるスケーリング性能の向上を示す。
論文 参考訳(メタデータ) (2024-10-14T02:02:54Z) - Scaling Vision Transformers to 22 Billion Parameters [140.67853929168382]
Vision Transformers (ViT) は画像とビデオのモデリングに同じアーキテクチャを導入したが、まだほぼ同じ程度に拡張されていない。
本稿では,22Bパラメータ ViT (ViT-22B) の高効率かつ安定なトレーニング法を提案する。
ViT-22Bは、視界における"LLMライクな"スケーリングの可能性を示し、そこに到達するための重要なステップを提供する。
論文 参考訳(メタデータ) (2023-02-10T18:58:21Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Wide Attention Is The Way Forward For Transformers [9.252523881586054]
幅広い単一層トランスフォーマーモデルでは,自然言語処理(NLP)タスクにおいて,より深い処理と競合したり,より優れたりすることを示す。
以上の結果から,NLP用トランスフォーマーの開発において重要な方向は幅であり,深度はそれほど重要でないことが示唆された。
論文 参考訳(メタデータ) (2022-10-02T21:49:54Z) - Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation [52.94101901600948]
マルチタスク6-DoF操作のための言語条件付き行動閉鎖エージェントPerActを開発した。
PerActはPerceiver Transformerを用いて言語目標とRGB-Dボクセル観測を符号化し、"次の最良のボクセル動作を検出する"ことで識別された動作を出力する。
以上の結果から,PerActは多様なテーブルトップタスクにおいて,非構造化イメージ・ツー・アクション・エージェントと3D ConvNetベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-09-12T17:51:05Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Hierarchical Transformers Are More Efficient Language Models [19.061388006885686]
トランスフォーマーモデルは、多くのNLPおよびシーケンスモデリングタスクにおいて印象的な結果をもたらす。
注目すべきは、Transformerは長いシーケンスを処理でき、長いコヒーレントな出力を生成することができることだ。
我々は、長いシーケンスを効率的に処理するトランスフォーマーの鍵は、明示的な階層アーキテクチャを持つことにあると仮定する。
論文 参考訳(メタデータ) (2021-10-26T14:00:49Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。