論文の概要: Integrated electro-optic attention nonlinearities for transformers
- arxiv url: http://arxiv.org/abs/2604.09512v1
- Date: Fri, 10 Apr 2026 17:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.980062
- Title: Integrated electro-optic attention nonlinearities for transformers
- Title(参考訳): 変圧器の集積型電気光学的注意非線形性
- Authors: Luis Mickeler, Kai Lion, Alfonso Nardi, Jost Kellner, Pierre Didier, Bhavin J. Shastri, Niao He, Rachel Grange,
- Abstract要約: 我々は, 薄膜ニオブ酸リチウム(TFLN)マッハ・ツェンダー変調器をアナログ非線形計算素子として使用し, 非線形計算のレイテンシを大幅に低減した。
この結果から,TFLN変調器はハイブリッド共パッケージハードウェアの非線形機能ユニットとして機能し,高速かつエネルギー効率の高い非線形計算を可能にすることが示唆された。
- 参考スコア(独自算出の注目度): 16.53540323704292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have emerged as the dominant neural-network architecture, achieving state-of-the-art performance in language processing and computer vision. At the core of these models lies the attention mechanism, which requires a nonlinear, non-negative mapping using the Softmax function. However, although Softmax operations account for less than 1% of the total operation count, they can disproportionately bottleneck overall inference latency. Here, we use thin-film lithium niobate (TFLN) Mach-Zehnder modulators (MZMs) as analog nonlinear computational elements to drastically reduce the latency of nonlinear computations. We implement electro-optic alternatives to digital Softmax and Sigmoid, and evaluate their performance in Vision Transformers and Large Language Models. Our system maintains highly competitive accuracy, even under aggressive 4-bit input-output quantization of the analog units. We further characterize system noise at encoding speeds up to 10 GBaud and assess model robustness under various noise conditions. Our findings suggest that TFLN modulators can serve as nonlinear function units within hybrid co-packaged hardware, enabling high-speed and energy-efficient nonlinear computation.
- Abstract(参考訳): トランスフォーマーは、言語処理とコンピュータビジョンにおける最先端のパフォーマンスを達成するために、支配的なニューラルネットワークアーキテクチャとして登場した。
これらのモデルのコアにはアテンション機構があり、ソフトマックス関数を用いた非線形で非負の写像を必要とする。
しかしながら、Softmax操作は全体の操作数の1%未満を占めるが、全体の推論遅延を不均等にボトルネックにすることができる。
ここでは, 薄膜ニオブ酸リチウム (TFLN) マッハ・ツェンダー変調器 (MZM) をアナログ非線形計算要素として使用し, 非線形計算のレイテンシを大幅に低減する。
我々はデジタルソフトマックスとシグミドの電気光学代替実装を行い、その性能を視覚変換器や大言語モデルで評価する。
本システムは,アナログユニットの4ビット入力出力量子化を積極的に行う場合でも,高い競争精度を維持している。
さらに,最大10GBaudの符号化速度におけるシステムノイズを特徴付けるとともに,各種ノイズ条件下でのモデルロバスト性を評価する。
この結果から,TFLN変調器はハイブリッド共パッケージハードウェアの非線形機能ユニットとして機能し,高速かつエネルギー効率の高い非線形計算を可能にすることが示唆された。
関連論文リスト
- ReDON: Recurrent Diffractive Optical Neural Processor with Reconfigurable Self-Modulated Nonlinearity [4.488347887618485]
Recurrent Diffractive Optical Neural Processor (ReDON)を導入する。
大規模言語モデルで使用されるゲート線形単位(GLU)にインスパイアされたReDONは、伝播する光学場の一部を感知し、その位相や強度を軽量パラメトリック関数によって変調する。
画像認識とセグメンテーションのベンチマークでは、ReDONは以前のDONNと比較してテスト精度と平均交叉結合(mIoU)を最大20%改善する。
論文 参考訳(メタデータ) (2026-02-27T02:49:05Z) - Physical Analog Kolmogorov-Arnold Networks based on Reconfigurable Nonlinear-Processing Units [0.0]
Kolmogorov-Arnold Networks (KAN) はニューラルネットワークを線形層から学習可能な非線形エッジ関数にシフトする。
ここでは、再構成可能な非線形処理ユニット(RNPU)を用いて、マテリアでエッジ関数が実現される物理アナログkanアーキテクチャを紹介する。
我々は,プログラム可能な非線形変換を用いたコンパクトな感性回帰と分類を可能にする,現実的なシステムレベルのハードウェア実装を確立する。
論文 参考訳(メタデータ) (2026-02-07T12:33:11Z) - Unconventional Computing based on Four Wave Mixing in Highly Nonlinear
Waveguides [0.0]
高非線形導波路の4波混合効果に基づくフォトニック非従来型加速器の数値解析を行った。
豊かなKerr誘起非線形性を利用することで、入力信号の複数の非線形変換を生成し、複雑な非線形タスクを解くのに使うことができる。
論文 参考訳(メタデータ) (2024-02-14T12:34:38Z) - Weak Kerr Nonlinearity Boosts the Performance of Frequency-Multiplexed
Photonic Extreme Learning Machines: A Multifaceted Approach [49.1574468325115]
周波数多重学習機(ELM)の性能に及ぼすKerr非線形性の影響について検討する。
Kerrの非線形性は、効率的な情報混合を可能にするランダム化されたニューロン接続を促進する。
我々は,周波数多重化EMMにおいて,Kerr非線形性は,自己変調やクロスフェーズ変調ではなく,4波混合によって情報を混合することを示すモデルを提案する。
論文 参考訳(メタデータ) (2023-12-19T16:18:59Z) - RF-Photonic Deep Learning Processor with Shannon-Limited Data Movement [0.0]
光ニューラルネットワーク(ONN)は、超低レイテンシとエネルギー消費を持つ有望な加速器である。
我々は、周波数領域のデータを符号化する乗法的アナログ周波数変換ONN(MAFT-ONN)を導入する。
我々は、生のRF信号で完全にアナログのディープラーニングを演算する最初のハードウェアアクセラレータを実験的に実証した。
論文 参考訳(メタデータ) (2022-07-08T16:37:13Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Single-Shot Optical Neural Network [55.41644538483948]
深層ニューラルネットワークに必要な計算資源を削減するために,「重定常」アナログ光学・電子ハードウェアが提案されている。
我々は、スケーラブルで1層当たり単発の重み付き光学プロセッサを提案する。
論文 参考訳(メタデータ) (2022-05-18T17:49:49Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Designing Kerr Interactions for Quantum Information Processing via
Counterrotating Terms of Asymmetric Josephson-Junction Loops [68.8204255655161]
静的空洞非線形性は通常、ボゾン量子誤り訂正符号の性能を制限する。
非線形性を摂動として扱うことで、シュリーファー・ヴォルフ変換を用いて実効ハミルトニアンを導出する。
その結果、立方体相互作用は、線形演算と非線形演算の両方の有効率を高めることができることがわかった。
論文 参考訳(メタデータ) (2021-07-14T15:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。