論文の概要: Training Compute-Optimal Vision Transformers for Brain Encoding
- arxiv url: http://arxiv.org/abs/2410.19810v1
- Date: Thu, 17 Oct 2024 12:54:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 07:49:43.682254
- Title: Training Compute-Optimal Vision Transformers for Brain Encoding
- Title(参考訳): 脳符号化のためのコンピュータ・最適視覚変換器の訓練
- Authors: Sana Ahmadi, Francois Paugam, Tristan Glatard, Pierre Lune Bellec,
- Abstract要約: 脳エンコーディングのための視覚変換器の最適トレーニングは、モデルサイズ、データサイズ、計算資源の3つの要素に依存する。
本研究では、データスケーリング、時間モデルスケーリング、高性能コンピューティングが脳エンコーディング結果に与える影響について検討する。
- 参考スコア(独自算出の注目度): 0.46873264197900916
- License:
- Abstract: The optimal training of a vision transformer for brain encoding depends on three factors: model size, data size, and computational resources. This study investigates these three pillars, focusing on the effects of data scaling, model scaling, and high-performance computing on brain encoding results. Using VideoGPT to extract efficient spatiotemporal features from videos and training a Ridge model to predict brain activity based on these features, we conducted benchmark experiments with varying data sizes (10k, 100k, 1M, 6M) and different model configurations of GPT-2, including hidden layer dimensions, number of layers, and number of attention heads. We also evaluated the effects of training models with 32-bit vs 16-bit floating point representations. Our results demonstrate that increasing the hidden layer dimensions significantly improves brain encoding performance, as evidenced by higher Pearson correlation coefficients across all subjects. In contrast, the number of attention heads does not have a significant effect on the encoding results. Additionally, increasing the number of layers shows some improvement in brain encoding correlations, but the trend is not as consistent as that observed with hidden layer dimensions. The data scaling results show that larger training datasets lead to improved brain encoding performance, with the highest Pearson correlation coefficients observed for the largest dataset size (6M). These findings highlight that the effects of data scaling are more significant compared to model scaling in enhancing brain encoding performance. Furthermore, we explored the impact of floating-point precision by comparing 32-bit and 16-bit representations. Training with 16-bit precision yielded the same brain encoding accuracy as 32-bit, while reducing training time by 1.17 times, demonstrating its efficiency for high-performance computing tasks.
- Abstract(参考訳): 脳エンコーディングのための視覚変換器の最適トレーニングは、モデルサイズ、データサイズ、計算資源の3つの要素に依存する。
本研究では、これらの3つの柱について、データスケーリング、モデルスケーリング、高性能コンピューティングが脳エンコーディング結果に与える影響に着目して検討する。
ビデオGPTを用いてビデオから効率的な時空間的特徴を抽出し,これらの特徴に基づく脳活動予測のためのリッジモデルを訓練し,GPT-2の様々なデータサイズ(10k,100k,1M,6M)と異なるモデル構成(隠蔽層次元,層数,アテンションヘッド数など)のベンチマーク実験を行った。
また,32ビット対16ビット浮動小数点表現を用いた学習モデルの有効性についても検討した。
以上の結果から, 隠蔽層次元の増大は脳の符号化性能を著しく向上させることが明らかとなった。
対照的に、アテンションヘッドの数はエンコーディング結果に有意な影響を及ぼさない。
さらに、レイヤー数の増加は、脳のエンコーディングの相関性の改善を示しているが、この傾向は隠れた層次元で観察されるものほど一貫性がない。
データスケーリングの結果,最大データセットサイズ(6M)でPearson相関係数が最も高いため,より大きなトレーニングデータセットが脳符号化性能の向上につながることが示された。
これらの結果から,脳エンコーディング性能の向上におけるデータスケーリングの効果は,モデルスケーリングよりも顕著であることが示唆された。
さらに,32ビットと16ビットの表現を比較し,浮動小数点精度の影響を検討した。
16ビットの精度でトレーニングすると、32ビットと同じ脳エンコーディングの精度が得られ、訓練時間を1.17倍に短縮し、高性能コンピューティングタスクの効率を実証した。
関連論文リスト
- On the Scalability of Diffusion-based Text-to-Image Generation [97.64837704129005]
拡散に基づくテキスト・ツー・イメージ(T2I)モデルのスケーリング特性について検討する。
モデルスケーリングでは、既存のUNet設計の性能を区別して、クロスアテンションの位置と量を求める。
データスケーリングの面では、単にデータセットのサイズではなく、トレーニングセットの品質と多様性が重要です。
論文 参考訳(メタデータ) (2024-04-03T17:34:28Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Scaling laws for language encoding models in fMRI [47.498241053872924]
我々は、fMRIを用いて記録された脳の反応を予測するために、より大きなオープンソースモデルの方が優れているかどうかを検証した。
同様の対数行動は、fMRIトレーニングセットのサイズを拡大する際に観察された。
これらの結果は、脳内の言語処理の極めて効果的なモデルが得られることを示唆している。
論文 参考訳(メタデータ) (2023-05-19T17:53:03Z) - Analyzing the Performance of Deep Encoder-Decoder Networks as Surrogates
for a Diffusion Equation [0.0]
本研究では,エンコーダ・デコーダ畳み込みニューラルネットワーク(CNN)を定常拡散解法の代用として利用することを検討した。
その結果,トレーニングセットのサイズが大きくなると,性能変動や全体的な誤差の低減に大きく影響することが示唆された。
論文 参考訳(メタデータ) (2023-02-07T22:53:19Z) - Deep learning for ECoG brain-computer interface: end-to-end vs.
hand-crafted features [4.7773230870500605]
脳信号は時間的データであり、低信号対雑音比、不確実なラベル、非定常データである。
これらの要因はトレーニングプロセスに影響を与え、モデルのパフォーマンス改善を遅くする可能性がある。
本稿では,BCIモータ画像復号における生のECoG信号と時間周波数特徴を用いたモデルを比較した。
論文 参考訳(メタデータ) (2022-10-05T20:18:30Z) - Impact of dataset size and long-term ECoG-based BCI usage on deep
learning decoders performance [4.7773230870500605]
脳-コンピュータインタフェース(BCI)の研究では、記録データは時間がかかり費用がかかる。
デコーダのトレーニングにより多くのデータで高いデコード性能を実現できますか?
実験の後、比較的小さなデータセットで高い復号性能が得られた。
論文 参考訳(メタデータ) (2022-09-08T13:01:05Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。