Fugu-MT 論文翻訳(概要): Optical training of large-scale Transformers and deep neural networks with direct feedback alignment

論文の概要: Optical training of large-scale Transformers and deep neural networks with direct feedback alignment

arxiv url: http://arxiv.org/abs/2409.12965v1
Date: Sun, 1 Sep 2024 12:48:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 12:36:59.691381
Title: Optical training of large-scale Transformers and deep neural networks with direct feedback alignment
Title（参考訳）: 直接フィードバックアライメントを用いた大規模変圧器と深部ニューラルネットワークの光教育
Authors: Ziao Wang, Kilian Müller, Matthew Filipovich, Julien Launay, Ruben Ohana, Gustave Pariente, Safa Mokaadi, Charles Brossollet, Fabien Moreau, Alessandro Cappelli, Iacopo Poli, Igor Carron, Laurent Daudet, Florent Krzakala, Sylvain Gigan,
Abstract要約: 我々は,ハイブリッド電子フォトニックプラットフォーム上で,ダイレクトフィードバックアライメントと呼ばれる多目的でスケーラブルなトレーニングアルゴリズムを実験的に実装した。光処理ユニットは、このアルゴリズムの中央動作である大規模ランダム行列乗算を最大1500テラOpsで行う。我々は、ハイブリッド光アプローチの計算スケーリングについて検討し、超深度・広帯域ニューラルネットワークの潜在的な利点を実証する。
参考スコア（独自算出の注目度）: 48.90869997343841
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern machine learning relies nearly exclusively on dedicated electronic hardware accelerators. Photonic approaches, with low consumption and high operation speed, are increasingly considered for inference but, to date, remain mostly limited to relatively basic tasks. Simultaneously, the problem of training deep and complex neural networks, overwhelmingly performed through backpropagation, remains a significant limitation to the size and, consequently, the performance of current architectures and a major compute and energy bottleneck. Here, we experimentally implement a versatile and scalable training algorithm, called direct feedback alignment, on a hybrid electronic-photonic platform. An optical processing unit performs large-scale random matrix multiplications, which is the central operation of this algorithm, at speeds up to 1500 TeraOps. We perform optical training of one of the most recent deep learning architectures, including Transformers, with more than 1B parameters, and obtain good performances on both language and vision tasks. We study the compute scaling of our hybrid optical approach, and demonstrate a potential advantage for ultra-deep and wide neural networks, thus opening a promising route to sustain the exponential growth of modern artificial intelligence beyond traditional von Neumann approaches.
Abstract（参考訳）: 現代の機械学習は、専用ハードウェアアクセラレーターにのみ依存している。少ない消費と高い運用速度を持つフォトニックアプローチは、推論ではますます検討されているが、これまでは比較的基本的なタスクに限られていた。同時に、バックプロパゲーションを通じて圧倒的に実行された深い複雑なニューラルネットワークをトレーニングする問題は、現在のアーキテクチャのパフォーマンスと計算とエネルギーのボトルネックに重大な制限を課している。そこで我々は,ハイブリッド電子フォトニックプラットフォーム上で,ダイレクトフィードバックアライメントと呼ばれる多目的でスケーラブルなトレーニングアルゴリズムを実験的に実装した。光処理ユニットは、このアルゴリズムの中央動作である大規模ランダム行列乗算を最大1500テラOpsで行う。我々は、トランスフォーマーを含む最新のディープラーニングアーキテクチャの1つを1Bパラメータ以上で光学訓練し、言語と視覚の両方で優れた性能を得る。我々は、我々のハイブリッド光学アプローチの計算スケーリングを研究し、超深度・広帯域ニューラルネットワークの潜在的な優位性を実証し、従来型のフォン・ノイマンアプローチを超えて、現代の人工知能の指数的成長を維持するための有望な道を開く。

関連論文リスト

Training Hybrid Neural Networks with Multimode Optical Nonlinearities Using Digital Twins [2.8479179029634984]
大規模非線形変換を行う多モードファイバに超短パルス伝搬を導入する。ハイブリッドアーキテクチャのトレーニングは、光学系を微分的に近似するニューラルモデルによって達成される。実験により,最先端の画像分類精度とシミュレーション精度が得られた。
論文参考訳（メタデータ） (2025-01-14T10:35:18Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving [52.808273563372126]
本稿では,基本認識モジュールとユーザフレンドリなグラフィカルインタフェースのライブラリの提供を目的とした,新しい階層的BEV知覚パラダイムを提案する。我々は,大規模公開データセットと合理化開発プロセスを効果的に活用するために,Pretrain-Finetune戦略を実行している。また、マルチモジュールラーニング(MML)アプローチを提案し、複数のモデルの相乗的かつ反復的な訓練により性能を向上させる。
論文参考訳（メタデータ） (2024-07-17T11:17:20Z)
Genetically programmable optical random neural networks [0.0]
遺伝的にプログラム可能であるが、光学的ランダムプロジェクションによる高性能を実現するための単純な光学ニューラルネットワークを実証する。ランダムプロジェクションカーネルとして機能する散乱媒質の配向を遺伝的にプログラミングすることにより,本手法は最適なカーネルを発見し,初期試験精度を7-22%向上させる。提案手法は,シンプルでスケーラブルな設計で,光ニューラルネットワークの高性能化を実現するための有望な手法である。
論文参考訳（メタデータ） (2024-03-19T06:55:59Z)
Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文参考訳（メタデータ） (2023-08-27T03:55:28Z)
Training neural networks with end-to-end optical backpropagation [1.1602089225841632]
光プロセスを用いてニューラルネットワークをトレーニングするアルゴリズムであるバックプロパゲーションの実装方法を示す。我々のアプローチは、様々なアナログプラットフォーム、材料、ネットワーク構造に適用可能である。これは、トレーニングタスクと推論タスクの両方において、アナログ光学プロセスに完全に依存するニューラルネットワークを構築する可能性を示している。
論文参考訳（メタデータ） (2023-08-09T21:11:26Z)
Neuromorphic Optical Flow and Real-time Implementation with Event Cameras [47.11134388304464]
イベントベースのビジョンとスパイクニューラルネットワークの最新の開発の上に構築しています。我々は、最先端の自己監督型光フロー精度を向上させる新しいネットワークアーキテクチャを提案する。約2桁の複雑さで高速な光流予測を行う。
論文参考訳（メタデータ） (2023-04-14T14:03:35Z)
Sophisticated deep learning with on-chip optical diffractive tensor processing [5.081061839052458]
フォトニック集積回路は、電子回路によってもたらされる帯域制限と電力ウォールを緩和するための効率的なアプローチを提供する。我々は、オンチップ回折により、光畳み込みユニット(OCU)と呼ばれる畳み込み加速度を実装する光学コンピューティングアーキテクチャを提案する。 OCUを基本単位として、光学畳み込みニューラルネットワーク(oCNN)を構築し、分類と回帰という2つの一般的なディープラーニングタスクを実装する。
論文参考訳（メタデータ） (2022-12-20T03:33:26Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Monolithic Silicon Photonic Architecture for Training Deep Neural Networks with Direct Feedback Alignment [0.6501025489527172]
CMOS互換シリコンフォトニックアーキテクチャによって実現されたニューラルネットワークのオンチップトレーニングを提案する。提案手法では,エラーのバックプロパゲーションではなく,エラーフィードバックを用いてニューラルネットワークをトレーニングする,直接フィードバックアライメントトレーニングアルゴリズムを用いる。オンチップMAC演算結果を用いて,MNISTデータセットを用いたディープニューラルネットワークのトレーニング実験を行った。
論文参考訳（メタデータ） (2021-11-12T18:31:51Z)
Rapid characterisation of linear-optical networks via PhaseLift [51.03305009278831]
集積フォトニクスは優れた位相安定性を提供し、半導体産業によって提供される大規模な製造性に依存することができる。このような光回路に基づく新しいデバイスは、機械学習アプリケーションにおいて高速でエネルギー効率の高い計算を約束する。線形光ネットワークの転送行列を再構成する新しい手法を提案する。
論文参考訳（メタデータ） (2020-10-01T16:04:22Z)
Large-scale neuromorphic optoelectronic computing with a reconfigurable diffractive processing unit [38.898230519968116]
回折処理ユニットを構築することにより、光電子再構成可能な計算パラダイムを提案する。異なるニューラルネットワークを効率的にサポートし、数百万のニューロンで高いモデル複雑性を達成することができる。市販の光電子部品を用いたプロトタイプシステムは,最先端のグラフィックス処理ユニットの性能を超越している。
論文参考訳（メタデータ） (2020-08-26T16:34:58Z)
Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文参考訳（メタデータ） (2020-02-04T23:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。