論文の概要: ScaMo: Exploring the Scaling Law in Autoregressive Motion Generation Model
- arxiv url: http://arxiv.org/abs/2412.14559v1
- Date: Thu, 19 Dec 2024 06:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:51.159072
- Title: ScaMo: Exploring the Scaling Law in Autoregressive Motion Generation Model
- Title(参考訳): ScaMo: 自己回帰運動生成モデルにおけるスケーリング法則の探求
- Authors: Shunlin Lu, Jingbo Wang, Zeyu Lu, Ling-Hao Chen, Wenxun Dai, Junting Dong, Zhiyang Dou, Bo Dai, Ruimao Zhang,
- Abstract要約: 本稿では,モーショントークン機構であるMotionQ-VAEと,テキストFS-VAE変換器を備えるスケーラブルなモーション生成フレームワークを提案する。
運動生成の文脈におけるスケーリング法則の存在を初めて確認する。
計算予算が1e18$である場合、最適なトランスフォーマーサイズ、語彙サイズ、およびデータ要求を予測する。
- 参考スコア(独自算出の注目度): 27.532993606576152
- License:
- Abstract: The scaling law has been validated in various domains, such as natural language processing (NLP) and massive computer vision tasks; however, its application to motion generation remains largely unexplored. In this paper, we introduce a scalable motion generation framework that includes the motion tokenizer Motion FSQ-VAE and a text-prefix autoregressive transformer. Through comprehensive experiments, we observe the scaling behavior of this system. For the first time, we confirm the existence of scaling laws within the context of motion generation. Specifically, our results demonstrate that the normalized test loss of our prefix autoregressive models adheres to a logarithmic law in relation to compute budgets. Furthermore, we also confirm the power law between Non-Vocabulary Parameters, Vocabulary Parameters, and Data Tokens with respect to compute budgets respectively. Leveraging the scaling law, we predict the optimal transformer size, vocabulary size, and data requirements for a compute budget of $1e18$. The test loss of the system, when trained with the optimal model size, vocabulary size, and required data, aligns precisely with the predicted test loss, thereby validating the scaling law.
- Abstract(参考訳): 拡張法則は自然言語処理(NLP)や大規模コンピュータビジョンタスクなど様々な領域で検証されているが、動作生成への応用は未定である。
本稿では,モーショントークンのFSQ-VAEとテキストプリフィックス自動回帰変換器を備えたスケーラブルなモーション生成フレームワークを提案する。
総合的な実験を通して,本システムのスケーリング挙動を観察する。
運動生成の文脈におけるスケーリング法則の存在を初めて確認する。
具体的には, プレフィックス自己回帰モデルの正常化試験損失が, 計算予算に関する対数法則に則っていることを示す。
さらに,計算予算に関して,非語彙パラメータ,語彙パラメータ,データトークン間の電力法則をそれぞれ確認する。
スケーリング法則を応用して、計算予算が1e18$の最適トランスフォーマーサイズ、語彙サイズ、およびデータ要求を予測する。
システムのテスト損失は、最適なモデルサイズ、語彙サイズ、必要なデータでトレーニングされると、予測されたテスト損失と正確に一致し、スケーリング法則を検証する。
関連論文リスト
- Towards Precise Scaling Laws for Video Diffusion Transformers [43.6690970187664]
ビデオ拡散変換器のスケーリング法則を解析し,任意のモデルサイズと計算予算に対して新しいスケーリング法則を提案する。
これらの最適設定の下では、従来のスケーリング手法と比較して、同等のパフォーマンスを実現し、推論コストを40.1%削減する。
論文 参考訳(メタデータ) (2024-11-25T18:59:04Z) - Understanding Scaling Laws with Statistical and Approximation Theory for Transformer Neural Networks on Intrinsically Low-dimensional Data [4.481230230086981]
ディープニューラルネットワークでは、モデルのサイズとデータサイズの両方に依存するパワースケーリング法則に従うために、モデルの一般化誤差がしばしば観察される。
本理論は, 一般化誤差とトレーニングデータサイズと変圧器のネットワークサイズとの間のパワー則を予測する。
多様体仮説の下で低次元のデータ構造を利用することにより、データ幾何学を尊重する方法でトランスフォーマースケーリング法則を説明することができる。
論文 参考訳(メタデータ) (2024-11-11T01:05:28Z) - Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Scaling Laws For Diffusion Transformers [27.180452052901146]
拡散トランス (DiT) は, コンテンツレクリエーションにおいて魅力的な合成とスケーリング特性を達成している。
DiTのスケーリング法則は調査されていないため、通常は最適なモデルサイズとデータ要求に関する正確な予測を提供する。
1e17から6e18 FLOP までの幅広い計算予算の実験を行い、DiT におけるスケーリング法則の存在を確認する。
論文 参考訳(メタデータ) (2024-10-10T17:56:03Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Scaling Laws for Autoregressive Generative Modeling [30.051804305320424]
生成画像モデリング,ビデオモデリング,マルチモーダル画像$leftarrow$textモデル,数学的問題解決の4つの領域におけるクロスエントロピー損失に対する経験的スケーリング法則を同定する。
いずれの場合も、モデルのサイズや計算予算が増加するにつれて、自動回帰変換器はパフォーマンスを円滑に改善する。
論文 参考訳(メタデータ) (2020-10-28T02:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。