論文の概要: Streamlined optical training of large-scale modern deep learning architectures with direct feedback alignment
- arxiv url: http://arxiv.org/abs/2409.12965v2
- Date: Wed, 02 Apr 2025 11:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:15:27.974550
- Title: Streamlined optical training of large-scale modern deep learning architectures with direct feedback alignment
- Title(参考訳): 直接フィードバックアライメントを用いた大規模近代ディープラーニングアーキテクチャの合理化
- Authors: Ziao Wang, Kilian Müller, Matthew Filipovich, Julien Launay, Ruben Ohana, Gustave Pariente, Safa Mokaadi, Charles Brossollet, Fabien Moreau, Alessandro Cappelli, Iacopo Poli, Igor Carron, Laurent Daudet, Florent Krzakala, Sylvain Gigan,
- Abstract要約: 我々は,ハイブリッド電子フォトニックプラットフォーム上で,ダイレクトフィードバックアライメントと呼ばれる多目的でスケーラブルなトレーニングアルゴリズムを実験的に実装した。
光処理ユニットは、30ワット以下の1500テラオプスで大規模なランダム行列乗算を行う。
トレーニング時間のスケーリングについて検討し、超深度・広帯域ニューラルネットワークに対するハイブリッド光電子アプローチの潜在的な利点を実証する。
- 参考スコア(独自算出の注目度): 48.90869997343841
- License:
- Abstract: Modern deep learning relies nearly exclusively on dedicated electronic hardware accelerators. Photonic approaches, with low consumption and high operation speed, are increasingly considered for inference but, to date, remain mostly limited to relatively basic tasks. Simultaneously, the problem of training deep and complex neural networks, overwhelmingly performed through backpropagation, remains a significant limitation to the size and, consequently, the performance of current architectures and a major compute and energy bottleneck. Here, we experimentally implement a versatile and scalable training algorithm, called direct feedback alignment, on a hybrid electronic-photonic platform. An optical processing unit performs large-scale random matrix multiplications, which is the central operation of this algorithm, at speeds up to 1500 TeraOPS under 30 Watts of power. We perform optical training of modern deep learning architectures, including Transformers, with more than 1B parameters, and obtain good performances on language, vision, and diffusion-based generative tasks. We study the scaling of the training time, and demonstrate a potential advantage of our hybrid opto-electronic approach for ultra-deep and wide neural networks, thus opening a promising route to sustain the exponential growth of modern artificial intelligence beyond traditional von Neumann approaches.
- Abstract(参考訳): 現代のディープラーニングは、専用ハードウェアアクセラレーターにのみ依存している。
少ない消費と高い運用速度を持つフォトニックアプローチは、推論ではますます検討されているが、これまでは比較的基本的なタスクに限られていた。
同時に、バックプロパゲーションを通じて圧倒的に実行された深い複雑なニューラルネットワークをトレーニングする問題は、現在のアーキテクチャのパフォーマンスと計算とエネルギーのボトルネックに重大な制限を課している。
そこで我々は,ハイブリッド電子フォトニックプラットフォーム上で,ダイレクトフィードバックアライメントと呼ばれる多目的でスケーラブルなトレーニングアルゴリズムを実験的に実装した。
光処理ユニットは、このアルゴリズムの中央動作である大規模ランダム行列乗算を、30ワット以下の1500テラオプスの速度で実行する。
トランスフォーマーを含む近代的なディープラーニングアーキテクチャの光学的トレーニングを1Bパラメータ以上で行い、言語、視覚、拡散に基づく生成タスクの優れたパフォーマンスを得る。
トレーニング時間のスケーリングについて検討し、超深度・広帯域ニューラルネットワークにおけるハイブリッド光電子アプローチの潜在的な利点を実証し、従来型のフォン・ノイマンアプローチを超えて現代の人工知能の指数的成長を維持するための有望な道を開く。
関連論文リスト
- Training Hybrid Neural Networks with Multimode Optical Nonlinearities Using Digital Twins [2.8479179029634984]
大規模非線形変換を行う多モードファイバに超短パルス伝搬を導入する。
ハイブリッドアーキテクチャのトレーニングは、光学系を微分的に近似するニューラルモデルによって達成される。
実験により,最先端の画像分類精度とシミュレーション精度が得られた。
論文 参考訳(メタデータ) (2025-01-14T10:35:18Z) - Genetically programmable optical random neural networks [0.0]
遺伝的にプログラム可能であるが,光学的ランダムプロジェクションによる高性能を実現するための単純な光学的ニューラルネットワークを実証する。
本手法は,各種機械学習タスクにおいて,カーネルの最適化と初期テスト精度の8~41%向上を実現する。
論文 参考訳(メタデータ) (2024-03-19T06:55:59Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - Training neural networks with end-to-end optical backpropagation [1.1602089225841632]
光プロセスを用いてニューラルネットワークをトレーニングするアルゴリズムであるバックプロパゲーションの実装方法を示す。
我々のアプローチは、様々なアナログプラットフォーム、材料、ネットワーク構造に適用可能である。
これは、トレーニングタスクと推論タスクの両方において、アナログ光学プロセスに完全に依存するニューラルネットワークを構築する可能性を示している。
論文 参考訳(メタデータ) (2023-08-09T21:11:26Z) - Neuromorphic Optical Flow and Real-time Implementation with Event
Cameras [47.11134388304464]
イベントベースのビジョンとスパイクニューラルネットワークの最新の開発の上に構築しています。
我々は、最先端の自己監督型光フロー精度を向上させる新しいネットワークアーキテクチャを提案する。
約2桁の複雑さで高速な光流予測を行う。
論文 参考訳(メタデータ) (2023-04-14T14:03:35Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Monolithic Silicon Photonic Architecture for Training Deep Neural
Networks with Direct Feedback Alignment [0.6501025489527172]
CMOS互換シリコンフォトニックアーキテクチャによって実現されたニューラルネットワークのオンチップトレーニングを提案する。
提案手法では,エラーのバックプロパゲーションではなく,エラーフィードバックを用いてニューラルネットワークをトレーニングする,直接フィードバックアライメントトレーニングアルゴリズムを用いる。
オンチップMAC演算結果を用いて,MNISTデータセットを用いたディープニューラルネットワークのトレーニング実験を行った。
論文 参考訳(メタデータ) (2021-11-12T18:31:51Z) - Rapid characterisation of linear-optical networks via PhaseLift [51.03305009278831]
集積フォトニクスは優れた位相安定性を提供し、半導体産業によって提供される大規模な製造性に依存することができる。
このような光回路に基づく新しいデバイスは、機械学習アプリケーションにおいて高速でエネルギー効率の高い計算を約束する。
線形光ネットワークの転送行列を再構成する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-01T16:04:22Z) - Large-scale neuromorphic optoelectronic computing with a reconfigurable
diffractive processing unit [38.898230519968116]
回折処理ユニットを構築することにより、光電子再構成可能な計算パラダイムを提案する。
異なるニューラルネットワークを効率的にサポートし、数百万のニューロンで高いモデル複雑性を達成することができる。
市販の光電子部品を用いたプロトタイプシステムは,最先端のグラフィックス処理ユニットの性能を超越している。
論文 参考訳(メタデータ) (2020-08-26T16:34:58Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。