Fugu-MT 論文翻訳(概要): M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on PRogrammable Multi-Operand Multimode Interference

論文の概要: M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on PRogrammable Multi-Operand Multimode Interference

arxiv url: http://arxiv.org/abs/2305.19505v2
Date: Thu, 28 Dec 2023 21:05:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 02:18:45.204950
Title: M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on PRogrammable Multi-Operand Multimode Interference
Title（参考訳）: m3icro:プログラム可能なマルチモード干渉に基づく機械学習対応コンパクトフォトニックテンソルコア
Authors: Jiaqi Gu, Hanqing Zhu, Chenghao Feng, Zixuan Jiang, Ray T. Chen, David Z. Pan
Abstract要約: 標準光学部品に基づく光テンソルコア(PTC)の設計は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。 M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。 M3ICROは、フットプリントが3.4-9.6倍、1.6-4.4倍、計算密度が10.6-42倍、システムスループットが3.7-12倍、ノイズロバスト性が優れている。
参考スコア（独自算出の注目度）: 18.0155410476884
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Photonic computing shows promise for transformative advancements in machine learning (ML) acceleration, offering ultra-fast speed, massive parallelism, and high energy efficiency. However, current photonic tensor core (PTC) designs based on standard optical components hinder scalability and compute density due to their large spatial footprint. To address this, we propose an ultra-compact PTC using customized programmable multi-operand multimode interference (MOMMI) devices, named M3ICRO. The programmable MOMMI leverages the intrinsic light propagation principle, providing a single-device programmable matrix unit beyond the conventional computing paradigm of one multiply-accumulate (MAC) operation per device. To overcome the optimization difficulty of customized devices that often requires time-consuming simulation, we apply ML for optics to predict the device behavior and enable a differentiable optimization flow. We thoroughly investigate the reconfigurability and matrix expressivity of our customized PTC, and introduce a novel block unfolding method to fully exploit the computing capabilities of a complex-valued PTC for near-universal real-valued linear transformations. Extensive evaluations demonstrate that M3ICRO achieves a 3.4-9.6x smaller footprint, 1.6-4.4x higher speed, 10.6-42x higher compute density, 3.7-12x higher system throughput, and superior noise robustness compared to state-of-the-art coherent PTC designs, while maintaining close-to-digital task accuracy across various ML benchmarks. Our code is open-sourced at https://github.com/JeremieMelo/M3ICRO-MOMMI.
Abstract（参考訳）: フォトニックコンピューティングは、超高速、大規模な並列処理、高エネルギー効率を提供する機械学習(ML)アクセラレーションの変革的な進歩を約束している。しかし、標準光学部品に基づく現在のフォトニックテンソルコア(PTC)は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。そこで我々は,M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。プログラム可能なMOMMIは、本質的な光伝搬原理を活用し、デバイス毎の1つの乗算(MAC)演算の従来の計算パラダイムを超えて、単一デバイスでプログラム可能な行列ユニットを提供する。時間のかかるシミュレーションを必要とするカスタマイズされたデバイスの最適化の難しさを克服するため、光学系にMLを適用してデバイス挙動を予測し、異なる最適化フローを実現する。我々は、カスタマイズされたPTCの再構成可能性と行列表現性を徹底的に検討し、複素数値PSCの計算能力を完全に活用するブロック展開手法を導入する。大規模な評価の結果、M3ICROは3.4-9.6倍のフットプリント、1.6-4.4倍の高速、10.6-42倍の計算密度、3.7-12倍のシステムスループット、最先端のコヒーレントPSC設計よりも優れたノイズ堅牢性を達成し、MLベンチマーク間の密接なタスク精度を維持した。私たちのコードはhttps://github.com/JeremieMelo/M3ICRO-MOMMIでオープンソース化されています。

関連論文リスト

CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications [0.0]
本稿では、エッジAIアクセラレーションのための低リソース繰り返しCORDICベースのMACユニットを備えた、ランタイム適応型、パフォーマンス向上ベクタエンジンを提案する。提案した設計により、近似モードと正確なモードの動的再構成が可能となり、幅広いワークロードの遅延精度トレードオフを利用することができる。 ASIC実装の結果、各MACステージは256-PE構成で最大33%の時間と21%の電力を節約できることがわかった。
論文参考訳（メタデータ） (2026-02-22T16:51:17Z)
P3-LLM: An Integrated NPU-PIM Accelerator for LLM Inference Using Hybrid Numerical Formats [10.43214279354138]
P3-LLMは、ハイブリッド数値形式を用いた推論のための新しい統合アクセラレータである。 P3-LLMはKV-cache量子化とウェイトアクティベーション量子化の両方の観点から最先端の精度を達成する。
論文参考訳（メタデータ） (2025-11-10T08:29:34Z)
MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。資源制約されたプラットフォームにおける高い計算コスト制限。我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-10-16T18:00:00Z)
TriADA: Massively Parallel Trilinear Matrix-by-Tensor Multiply-Add Algorithm and Device Architecture for the Acceleration of 3D Discrete Transformations [0.0]
マルチ線形変換は、ハイパフォーマンスコンピューティング(HPC)と人工知能(AI)ワークロードにおいて重要である。並列処理ユニットの数を増やすことでスケール計算はエネルギー消費を大幅に増加させます。 TriADAは、ハイパーキュービックな算術複雑性を持つ様々なトリ線形変換を、線形の時間ステップで実行することができる。
論文参考訳（メタデータ） (2025-06-28T08:42:01Z)
POLARON: Precision-aware On-device Learning and Adaptive Runtime-cONfigurable AI acceleration [0.0]
本研究は,効率的な乗算累積演算を行うSIMD対応マルチ精度MACエンジンを提案する。このアーキテクチャは、計算精度をワークロードの感度に合わせるための層適応的精度戦略を取り入れている。その結果,PDPは最大で2倍,資源使用量は3倍に改善した。
論文参考訳（メタデータ） (2025-06-10T13:33:02Z)
Towards 3D Acceleration for low-power Mixture-of-Experts and Multi-Head Attention Spiking Transformers [5.1210823165448]
Spiking Neural Networks(SNN)は、エネルギー効率のよいディープラーニングを解き放つ上で重要な、脳にインスパイアされたイベント駆動のメカニズムを提供する。本稿では,Mixture-of-ExpertsとMulti-Head Attention Spiking Transformerの最初の3Dハードウェアアーキテクチャと設計手法を紹介する。
論文参考訳（メタデータ） (2024-12-07T05:15:05Z)
Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。 CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文参考訳（メタデータ） (2024-09-25T11:10:33Z)
PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文参考訳（メタデータ） (2024-08-10T10:16:03Z)
PowerYOLO: Mixed Precision Model for Hardware Efficient Object Detection with Event Data [0.5461938536945721]
PowerYOLOは、高メモリと計算複雑性のアルゴリズムを小さな低消費電力デバイスに適合させる問題に対して、混合精度のソリューションである。まず,低消費電力のセンサであるダイナミック・ビジョン・センサ(DVS)をベースとしたシステムを提案する。次に、4ビット幅のPowers-of-Two(PoT)量子化を提案する。第3に、そのような解のハードウェアアクセラレーションの効率を高めるために、乗算をビットシフトに置き換える。
論文参考訳（メタデータ） (2024-07-11T08:17:35Z)
SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。 SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。 SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文参考訳（メタデータ） (2024-04-23T17:59:59Z)
Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文参考訳（メタデータ） (2023-08-10T17:37:49Z)
MPCViT: Searching for Accurate and Efficient MPC-Friendly Vision Transformer with Heterogeneous Attention [11.999596399083089]
我々は,MPCにおける高精度かつ効率的なViT推論を実現するために,MPCViTと呼ばれるMPCフレンドリーなViTを提案する。広範な実験により、MPCViTは6.2倍、2.9倍、および1.9倍の遅延低減で1.9%、1.3%、および3.6%の精度を達成した。
論文参考訳（メタデータ） (2022-11-25T08:37:17Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文参考訳（メタデータ） (2020-12-25T07:08:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。