論文の概要: M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on
PRogrammable Multi-Operand Multimode Interference
- arxiv url: http://arxiv.org/abs/2305.19505v2
- Date: Thu, 28 Dec 2023 21:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 02:18:45.204950
- Title: M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on
PRogrammable Multi-Operand Multimode Interference
- Title(参考訳): m3icro:プログラム可能なマルチモード干渉に基づく機械学習対応コンパクトフォトニックテンソルコア
- Authors: Jiaqi Gu, Hanqing Zhu, Chenghao Feng, Zixuan Jiang, Ray T. Chen, David
Z. Pan
- Abstract要約: 標準光学部品に基づく光テンソルコア(PTC)の設計は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。
M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。
M3ICROは、フットプリントが3.4-9.6倍、1.6-4.4倍、計算密度が10.6-42倍、システムスループットが3.7-12倍、ノイズロバスト性が優れている。
- 参考スコア(独自算出の注目度): 18.0155410476884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Photonic computing shows promise for transformative advancements in machine
learning (ML) acceleration, offering ultra-fast speed, massive parallelism, and
high energy efficiency. However, current photonic tensor core (PTC) designs
based on standard optical components hinder scalability and compute density due
to their large spatial footprint. To address this, we propose an ultra-compact
PTC using customized programmable multi-operand multimode interference (MOMMI)
devices, named M3ICRO. The programmable MOMMI leverages the intrinsic light
propagation principle, providing a single-device programmable matrix unit
beyond the conventional computing paradigm of one multiply-accumulate (MAC)
operation per device. To overcome the optimization difficulty of customized
devices that often requires time-consuming simulation, we apply ML for optics
to predict the device behavior and enable a differentiable optimization flow.
We thoroughly investigate the reconfigurability and matrix expressivity of our
customized PTC, and introduce a novel block unfolding method to fully exploit
the computing capabilities of a complex-valued PTC for near-universal
real-valued linear transformations. Extensive evaluations demonstrate that
M3ICRO achieves a 3.4-9.6x smaller footprint, 1.6-4.4x higher speed, 10.6-42x
higher compute density, 3.7-12x higher system throughput, and superior noise
robustness compared to state-of-the-art coherent PTC designs, while maintaining
close-to-digital task accuracy across various ML benchmarks. Our code is
open-sourced at https://github.com/JeremieMelo/M3ICRO-MOMMI.
- Abstract(参考訳): フォトニックコンピューティングは、超高速、大規模な並列処理、高エネルギー効率を提供する機械学習(ML)アクセラレーションの変革的な進歩を約束している。
しかし、標準光学部品に基づく現在のフォトニックテンソルコア(PTC)は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。
そこで我々は,M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。
プログラム可能なMOMMIは、本質的な光伝搬原理を活用し、デバイス毎の1つの乗算(MAC)演算の従来の計算パラダイムを超えて、単一デバイスでプログラム可能な行列ユニットを提供する。
時間のかかるシミュレーションを必要とするカスタマイズされたデバイスの最適化の難しさを克服するため、光学系にMLを適用してデバイス挙動を予測し、異なる最適化フローを実現する。
我々は、カスタマイズされたPTCの再構成可能性と行列表現性を徹底的に検討し、複素数値PSCの計算能力を完全に活用するブロック展開手法を導入する。
大規模な評価の結果、M3ICROは3.4-9.6倍のフットプリント、1.6-4.4倍の高速、10.6-42倍の計算密度、3.7-12倍のシステムスループット、最先端のコヒーレントPSC設計よりも優れたノイズ堅牢性を達成し、MLベンチマーク間の密接なタスク精度を維持した。
私たちのコードはhttps://github.com/JeremieMelo/M3ICRO-MOMMIでオープンソース化されています。
関連論文リスト
- Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。
CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文 参考訳(メタデータ) (2024-09-25T11:10:33Z) - PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - PowerYOLO: Mixed Precision Model for Hardware Efficient Object Detection with Event Data [0.5461938536945721]
PowerYOLOは、高メモリと計算複雑性のアルゴリズムを小さな低消費電力デバイスに適合させる問題に対して、混合精度のソリューションである。
まず,低消費電力のセンサであるダイナミック・ビジョン・センサ(DVS)をベースとしたシステムを提案する。
次に、4ビット幅のPowers-of-Two(PoT)量子化を提案する。
第3に、そのような解のハードウェアアクセラレーションの効率を高めるために、乗算をビットシフトに置き換える。
論文 参考訳(メタデータ) (2024-07-11T08:17:35Z) - SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - MPCViT: Searching for Accurate and Efficient MPC-Friendly Vision
Transformer with Heterogeneous Attention [11.999596399083089]
我々は,MPCにおける高精度かつ効率的なViT推論を実現するために,MPCViTと呼ばれるMPCフレンドリーなViTを提案する。
広範な実験により、MPCViTは6.2倍、2.9倍、および1.9倍の遅延低減で1.9%、1.3%、および3.6%の精度を達成した。
論文 参考訳(メタデータ) (2022-11-25T08:37:17Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。