論文の概要: Low-rank surrogate modeling and stochastic zero-order optimization for training of neural networks with black-box layers
- arxiv url: http://arxiv.org/abs/2509.15113v1
- Date: Thu, 18 Sep 2025 16:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.324942
- Title: Low-rank surrogate modeling and stochastic zero-order optimization for training of neural networks with black-box layers
- Title(参考訳): ブラックボックス層を用いたニューラルネットワークの低ランクサロゲートモデリングと確率零次最適化
- Authors: Andrei Chertkov, Artem Basharin, Mikhail Saygin, Evgeny Frolov, Stanislav Straupe, Ivan Oseledets,
- Abstract要約: 本稿では、再構成可能な物理層を持つハイブリッドネットワークのエンドツーエンドトレーニングのためのフレームワークを提案する。
提案手法の重要な構成要素は,プロジェクタ分割型インテグレータアルゴリズムであり,各前方通過後の軽量サロゲートモデルを更新する。
我々は,コンピュータビジョン,音声分類,言語モデリングなど,多様なディープラーニングタスクにまたがる手法を実証する。
- 参考スコア(独自算出の注目度): 4.1673753346810765
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The growing demand for energy-efficient, high-performance AI systems has led to increased attention on alternative computing platforms (e.g., photonic, neuromorphic) due to their potential to accelerate learning and inference. However, integrating such physical components into deep learning pipelines remains challenging, as physical devices often offer limited expressiveness, and their non-differentiable nature renders on-device backpropagation difficult or infeasible. This motivates the development of hybrid architectures that combine digital neural networks with reconfigurable physical layers, which effectively behave as black boxes. In this work, we present a framework for the end-to-end training of such hybrid networks. This framework integrates stochastic zeroth-order optimization for updating the physical layer's internal parameters with a dynamic low-rank surrogate model that enables gradient propagation through the physical layer. A key component of our approach is the implicit projector-splitting integrator algorithm, which updates the lightweight surrogate model after each forward pass with minimal hardware queries, thereby avoiding costly full matrix reconstruction. We demonstrate our method across diverse deep learning tasks, including: computer vision, audio classification, and language modeling. Notably, across all modalities, the proposed approach achieves near-digital baseline accuracy and consistently enables effective end-to-end training of hybrid models incorporating various non-differentiable physical components (spatial light modulators, microring resonators, and Mach-Zehnder interferometers). This work bridges hardware-aware deep learning and gradient-free optimization, thereby offering a practical pathway for integrating non-differentiable physical components into scalable, end-to-end trainable AI systems.
- Abstract(参考訳): エネルギー効率が高く高性能なAIシステムの需要が増大し、学習と推論を加速する可能性から、代替コンピューティングプラットフォーム(例えば、フォトニック、ニューロモルフィック)への関心が高まっている。
しかし、物理的なコンポーネントをディープラーニングパイプラインに統合することは依然として困難であり、物理デバイスは表現力に制限を与え、その非微分性はデバイス上のバックプロパゲーションを困難または不可能にする。
これにより、デジタルニューラルネットワークと再構成可能な物理層を組み合わせたハイブリッドアーキテクチャが開発され、ブラックボックスとして効果的に機能する。
本研究では,このようなハイブリッドネットワークのエンドツーエンドトレーニングのためのフレームワークを提案する。
このフレームワークは、物理層の内部パラメータを更新するための確率的ゼロ階最適化と、物理層間の勾配伝播を可能にする動的低ランクサロゲートモデルを統合する。
このアルゴリズムは,各前方通過後の軽量サロゲートモデルを最小限のハードウェアクエリで更新し,コストのかかる完全行列再構成を回避する。
我々は,コンピュータビジョン,音声分類,言語モデリングなど,多様なディープラーニングタスクにまたがる手法を実証する。
特に,全てのモードにおいて,提案手法はほぼデジタルに近いベースライン精度を実現し,様々な非微分可能物理成分(空間光変調器,マイクロリング共振器,マッハ・ツェンダー干渉計)を組み込んだハイブリッドモデルの効率的なエンドツーエンドトレーニングを一貫して実現している。
この作業はハードウェア対応のディープラーニングと勾配なしの最適化を橋渡しし、非微分不可能な物理コンポーネントをスケーラブルでエンドツーエンドのトレーニング可能なAIシステムに統合するための実践的な経路を提供する。
関連論文リスト
- diffSPH: Differentiable Smoothed Particle Hydrodynamics for Adjoint Optimization and Machine Learning [21.05257407408671]
diffSPHは、GPUアクセラレーションを備えたPyTorchで完全に開発された、微分可能なSmoothed Particle Hydrodynamics (SPH)フレームワークである。
diffSPHは、計算流体力学(CFD)における最適化と機械学習(ML)の応用を促進するために、微分を中心に設計されている。
新たなターゲット指向アプローチによるパーティクルシフトに対処するなど,いくつかのアプリケーションを通じて,フレームワークのユニークな機能を実証する。
論文 参考訳(メタデータ) (2025-07-29T10:54:27Z) - Training Hybrid Neural Networks with Multimode Optical Nonlinearities Using Digital Twins [2.8479179029634984]
大規模非線形変換を行う多モードファイバに超短パルス伝搬を導入する。
ハイブリッドアーキテクチャのトレーニングは、光学系を微分的に近似するニューラルモデルによって達成される。
実験により,最先端の画像分類精度とシミュレーション精度が得られた。
論文 参考訳(メタデータ) (2025-01-14T10:35:18Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures [73.65190161312555]
ARCANAは、混合信号ニューロモルフィック回路の特性を考慮に入れたソフトウェアスパイクニューラルネットワークシミュレータである。
得られた結果が,ソフトウェアでトレーニングされたスパイクニューラルネットワークの動作を,かつてハードウェアにデプロイされた場合の信頼性の高い推定方法を示す。
論文 参考訳(メタデータ) (2024-09-23T11:16:46Z) - Online Calibration of Deep Learning Sub-Models for Hybrid Numerical
Modeling Systems [34.50407690251862]
本稿では,ハイブリッドシステムのための効率的かつ実用的なオンライン学習手法を提案する。
オイラー勾配近似(Euler Gradient Approximation)のEGA(Euler Gradient Approximation)と呼ばれる手法は、無限に小さな時間ステップの極限における正確な勾配に収束することを示した。
その結果、オフライン学習よりも大幅に改善され、ハイブリッドモデリングにおけるエンド・ツー・エンドのオンライン学習の可能性を強調した。
論文 参考訳(メタデータ) (2023-11-17T17:36:26Z) - Interpretable learning of effective dynamics for multiscale systems [5.754251195342313]
iLED(Interpretable Learning Effective Dynamics)の新たな枠組みを提案する。
iLEDは、最先端のリカレントニューラルネットワークベースのアプローチに匹敵する精度を提供する。
その結果、iLEDフレームワークは正確な予測を生成でき、解釈可能なダイナミクスを得ることができることがわかった。
論文 参考訳(メタデータ) (2023-09-11T20:29:38Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - Gradient descent in materia through homodyne gradient extraction [2.012950941269354]
ホモダイン検出の原理に基づく簡易かつ効率的な勾配抽出法を示す。
最適化が必要なパラメータを摂動することで、高度に堅牢でスケーラブルな方法で勾配情報を得ることができる。
ホモジン勾配抽出は原則としてアマチュアで完全に実装することができ、自律的に学習する物質システムの開発を促進する。
論文 参考訳(メタデータ) (2021-05-15T12:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。