論文の概要: LightCode: Compiling LLM Inference for Photonic-Electronic Systems
- arxiv url: http://arxiv.org/abs/2509.16443v1
- Date: Fri, 19 Sep 2025 21:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.793106
- Title: LightCode: Compiling LLM Inference for Photonic-Electronic Systems
- Title(参考訳): LightCode:光電子系におけるLLM推論のコンパイル
- Authors: Ryan Tomich, Zhizhen Zhong, Dirk Englund,
- Abstract要約: LightCodeは、大型言語モデル(LLM)をフォトニック電子系にマッピングするためのコンパイラフレームワークとシミュレータである。
本稿では,各テンソル演算のハードウェア固有の実現を符号化する中間表現であるStacked Graphを紹介する。
シミュレーションされたワークロードの最大シーケンス長で、Photonicハードウェアがエネルギーを最大50%削減できることが示されています。
- 参考スコア(独自算出の注目度): 0.26068343017240947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing demand for low-latency, energy-efficient inference in large language models (LLMs) has catalyzed interest in heterogeneous architectures. While GPUs remain dominant, they are poorly suited for integration with emerging domain-specific accelerators like the Photonic Tensor Units (PTUs), which offer low-power, high-throughput linear computation. This motivates hybrid compilation strategies that combine photonic and electronic resources. We present LightCode, a compiler framework and simulator for mapping LLM inference workloads across hybrid photonic-electronic systems. LightCode introduces the Stacked Graph, an intermediate representation that encodes multiple hardware-specific realizations of each tensor operation. Hardware assignment is formulated as a constrained subgraph selection problem optimized for latency or energy under parametric cost models. We evaluate LightCode on the prefill stage of GPT-2 and Llama-7B showing that under our workload and hardware assumptions, (i) Photonic hardware reduced energy by up to 50% in our simulated workloads at maximum sequence length; (ii) multiplexing and assignment strategy yielded latency improvements exceeding 10x; and (iii) Optimizing for latency or energy resulted in distinct hardware mappings in our simulations. LightCode offers a module, foundational framework and simulator for compiling LLMs to emerging photonic accelerators.
- Abstract(参考訳): 大規模言語モデル (LLM) における低レイテンシ・エネルギー効率推論の需要が増大し、異種アーキテクチャへの関心が高まっている。
GPUは依然として支配的だが、低消費電力で高スループットの線形計算を提供するフォトニックテンソルユニット(PTU)のような、新興のドメイン固有のアクセラレータとの統合には適していない。
これはフォトニックと電子資源を組み合わせたハイブリッドコンパイル戦略を動機付けている。
我々は,LLM推論処理をハイブリッドフォトニック-電子系にマッピングするためのコンパイラフレームワークとシミュレータであるLightCodeを提案する。
LightCodeは、各テンソル操作の複数のハードウェア固有の実現をエンコードする中間表現であるStacked Graphを導入した。
ハードウェア割り当てはパラメトリックコストモデルの下で遅延やエネルギーに最適化された制約付きサブグラフ選択問題として定式化される。
GPT-2 と Llama-7B のプレフィル段階における LightCode の評価を行った。
i)フォトニックハードウェアは、最大シーケンス長のシミュレーションワークロードにおいて、エネルギーを最大50%削減します。
(二)多重化及び割当て戦略により、遅延改善が10倍を超え、
3) レイテンシやエネルギの最適化により,シミュレーションではハードウェアマッピングが異なる結果が得られた。
LightCodeは、新たなフォトニックアクセラレータにLLMをコンパイルするためのモジュール、基礎フレームワーク、シミュレータを提供する。
関連論文リスト
- Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective [6.51239603014107]
大規模言語モデル(LLM)は、単一ノード分析の限界を超えて、トレーニングワークロードを推し進めている。
様々な実世界のワークロードとハードウェアプラットフォームにわたるLLMトレーニングの包括的特徴について述べる。
論文 参考訳(メタデータ) (2025-09-12T16:05:07Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - What Is Next for LLMs? Next-Generation AI Computing Hardware Using Photonic Chips [34.52960723566363]
大規模言語モデル(LLM)は、現代のコンピューティングハードウェアの限界を急速に押し上げている。
このレビューでは、次世代世代AIコンピューティングに最適化された新興フォトニックハードウェアについて調査する。
論文 参考訳(メタデータ) (2025-05-09T05:19:14Z) - PAPI: Exploiting Dynamic Parallelism in Large Language Model Decoding with a Processing-In-Memory-Enabled Computing System [13.678531084541666]
PAPI は PIM 対応のヘテロジニアスアーキテクチャで,計算バウンドカーネルやメモリバウンドカーネルを適切なハードウェアユニットに動的にスケジューリングする。
PAPIは最先端の異種加速器と最先端のPIM専用加速器で1.8$times$と11.1$times$を達成している。
論文 参考訳(メタデータ) (2025-02-21T13:52:31Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval [80.96706764868898]
我々は、GLARE(Generative LAtent Feature based codebook Retrieval)を介して、新しい低照度画像強調(LLIE)ネットワークを提案する。
Invertible Latent Normalizing Flow (I-LNF) モジュールを開発し、LL特徴分布をNL潜在表現に整合させ、コードブック内の正しいコード検索を保証する。
さまざまなベンチマークデータセットと実世界のデータに対するGLAREの優れたパフォーマンスを確認する実験。
論文 参考訳(メタデータ) (2024-07-17T09:40:15Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Interleaving: Modular architectures for fault-tolerant photonic quantum
computing [50.591267188664666]
フォトニック核融合型量子コンピューティング(FBQC)は低損失フォトニック遅延を用いる。
FBQCのモジュールアーキテクチャとして,これらのコンポーネントを結合して「インターリービングモジュール」を形成するアーキテクチャを提案する。
遅延の乗法的パワーを行使すると、各加群はヒルベルト空間に数千の物理量子ビットを加えることができる。
論文 参考訳(メタデータ) (2021-03-15T18:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。