論文の概要: M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on
PRogrammable Multi-Operand Multimode Interference
- arxiv url: http://arxiv.org/abs/2305.19505v2
- Date: Thu, 28 Dec 2023 21:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 02:18:45.204950
- Title: M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on
PRogrammable Multi-Operand Multimode Interference
- Title(参考訳): m3icro:プログラム可能なマルチモード干渉に基づく機械学習対応コンパクトフォトニックテンソルコア
- Authors: Jiaqi Gu, Hanqing Zhu, Chenghao Feng, Zixuan Jiang, Ray T. Chen, David
Z. Pan
- Abstract要約: 標準光学部品に基づく光テンソルコア(PTC)の設計は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。
M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。
M3ICROは、フットプリントが3.4-9.6倍、1.6-4.4倍、計算密度が10.6-42倍、システムスループットが3.7-12倍、ノイズロバスト性が優れている。
- 参考スコア(独自算出の注目度): 18.0155410476884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Photonic computing shows promise for transformative advancements in machine
learning (ML) acceleration, offering ultra-fast speed, massive parallelism, and
high energy efficiency. However, current photonic tensor core (PTC) designs
based on standard optical components hinder scalability and compute density due
to their large spatial footprint. To address this, we propose an ultra-compact
PTC using customized programmable multi-operand multimode interference (MOMMI)
devices, named M3ICRO. The programmable MOMMI leverages the intrinsic light
propagation principle, providing a single-device programmable matrix unit
beyond the conventional computing paradigm of one multiply-accumulate (MAC)
operation per device. To overcome the optimization difficulty of customized
devices that often requires time-consuming simulation, we apply ML for optics
to predict the device behavior and enable a differentiable optimization flow.
We thoroughly investigate the reconfigurability and matrix expressivity of our
customized PTC, and introduce a novel block unfolding method to fully exploit
the computing capabilities of a complex-valued PTC for near-universal
real-valued linear transformations. Extensive evaluations demonstrate that
M3ICRO achieves a 3.4-9.6x smaller footprint, 1.6-4.4x higher speed, 10.6-42x
higher compute density, 3.7-12x higher system throughput, and superior noise
robustness compared to state-of-the-art coherent PTC designs, while maintaining
close-to-digital task accuracy across various ML benchmarks. Our code is
open-sourced at https://github.com/JeremieMelo/M3ICRO-MOMMI.
- Abstract(参考訳): フォトニックコンピューティングは、超高速、大規模な並列処理、高エネルギー効率を提供する機械学習(ML)アクセラレーションの変革的な進歩を約束している。
しかし、標準光学部品に基づく現在のフォトニックテンソルコア(PTC)は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。
そこで我々は,M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。
プログラム可能なMOMMIは、本質的な光伝搬原理を活用し、デバイス毎の1つの乗算(MAC)演算の従来の計算パラダイムを超えて、単一デバイスでプログラム可能な行列ユニットを提供する。
時間のかかるシミュレーションを必要とするカスタマイズされたデバイスの最適化の難しさを克服するため、光学系にMLを適用してデバイス挙動を予測し、異なる最適化フローを実現する。
我々は、カスタマイズされたPTCの再構成可能性と行列表現性を徹底的に検討し、複素数値PSCの計算能力を完全に活用するブロック展開手法を導入する。
大規模な評価の結果、M3ICROは3.4-9.6倍のフットプリント、1.6-4.4倍の高速、10.6-42倍の計算密度、3.7-12倍のシステムスループット、最先端のコヒーレントPSC設計よりも優れたノイズ堅牢性を達成し、MLベンチマーク間の密接なタスク精度を維持した。
私たちのコードはhttps://github.com/JeremieMelo/M3ICRO-MOMMIでオープンソース化されています。
関連論文リスト
- TeMPO: Efficient Time-Multiplexed Dynamic Photonic Tensor Core for Edge
AI with Compact Slow-Light Electro-Optic Modulator [44.74560543672329]
我々は,TMPOと呼ばれる時間多重化動的フォトニックテンソルアクセラレータを,クロス層デバイス/回路/アーキテクチャのカスタマイズにより提案する。
我々は,368.6TOPSピーク性能,22.3TOPS/Wエネルギー効率,1.2TOPS/mm$2$計算密度を実現した。
この研究は、多層共設計とドメイン固有のカスタマイズの力を示し、将来の電子フォトニクス加速器への道を開く。
論文 参考訳(メタデータ) (2024-02-12T03:40:32Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Deep learning based Meta-modeling for Multi-objective Technology
Optimization of Electrical Machines [0.0]
本稿では,2つの異なるマシン技術を同時に最適化するための変分自動エンコーダの応用について述べる。
トレーニング後、私たちは、グローバルなキーパフォーマンス指標を予測するために、ディープニューラルネットワークとデコーダをメタモデルとして使用します。
論文 参考訳(メタデータ) (2023-06-15T12:33:39Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - MPCViT: Searching for Accurate and Efficient MPC-Friendly Vision
Transformer with Heterogeneous Attention [11.999596399083089]
我々は,MPCにおける高精度かつ効率的なViT推論を実現するために,MPCViTと呼ばれるMPCフレンドリーなViTを提案する。
広範な実験により、MPCViTは6.2倍、2.9倍、および1.9倍の遅延低減で1.9%、1.3%、および3.6%の精度を達成した。
論文 参考訳(メタデータ) (2022-11-25T08:37:17Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Cross-Layer Approximation For Printed Machine Learning Circuits [4.865819809855699]
印刷エレクトロニクス(PE)における機械学習(ML)アーキテクチャに適した層間近似を提案し,実装する。
その結果, クロス近似は, 最先端の精密設計と比較して, 平均面積47%, 消費電力44%, 精度1%以下で最適設計を提供することを示した。
論文 参考訳(メタデータ) (2022-03-11T13:41:15Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。