論文の概要: Analog In-memory Training on General Non-ideal Resistive Elements: The Impact of Response Functions
- arxiv url: http://arxiv.org/abs/2502.06309v2
- Date: Fri, 14 Feb 2025 10:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:06:23.678928
- Title: Analog In-memory Training on General Non-ideal Resistive Elements: The Impact of Response Functions
- Title(参考訳): 一般非理想的抵抗要素に対するアナログインメモリトレーニング:応答関数の影響
- Authors: Zhaoxian Wu, Quan Xiao, Tayfun Gokmen, Omobayode Fagbohungbe, Tianyi Chen,
- Abstract要約: インメモリコンピューティング(AIMC)は、有望なエネルギー効率のソリューションとして出現する。
本稿ではまず,AIMCハードウェア上での勾配に基づくトレーニングの理論的基礎を提供する。
雑音の更新と非対称応答関数がAnalog SGDに悪影響を及ぼすことを示す。
この問題を解決するために、残差学習アルゴリズムであるTiki-Takaは、主配列と残差配列を双方向に最適化することにより、臨界点に正確に収束する。
- 参考スコア(独自算出の注目度): 28.37900681417143
- License:
- Abstract: As the economic and environmental costs of training and deploying large vision or language models increase dramatically, analog in-memory computing (AIMC) emerges as a promising energy-efficient solution. However, the training perspective, especially its training dynamic, is underexplored. In AIMC hardware, the trainable weights are represented by the conductance of resistive elements and updated using consecutive electrical pulses. Among all the physical properties of resistive elements, the response to the pulses directly affects the training dynamics. This paper first provides a theoretical foundation for gradient-based training on AIMC hardware and studies the impact of response functions. We demonstrate that noisy update and asymmetric response functions negatively impact Analog SGD by imposing an implicit penalty term on the objective. To overcome the issue, Tiki-Taka, a residual learning algorithm, converges exactly to a critical point by optimizing a main array and a residual array bilevelly. The conclusion is supported by simulations validating our theoretical insights.
- Abstract(参考訳): 大規模ビジョンや言語モデルの訓練と展開の経済的および環境的コストが劇的に増加するにつれて、アナログインメモリコンピューティング(AIMC)が将来的なエネルギー効率のソリューションとして出現する。
しかし、トレーニングの観点、特にトレーニングのダイナミックさは過小評価されている。
AIMCハードウェアでは、トレーニング可能な重量は抵抗素子のコンダクタンスで表され、連続する電気パルスを用いて更新される。
抵抗素子のすべての物理的性質の中で、パルスに対する応答はトレーニング力学に直接影響を及ぼす。
本稿ではまず,AIMCハードウェア上での勾配に基づくトレーニングの理論的基礎を提供し,応答関数の影響について検討する。
目的語に暗黙のペナルティ項を付与することにより,雑音の更新と非対称応答関数がAnalog SGDに悪影響を及ぼすことを示した。
この問題を克服するため、残差学習アルゴリズムであるTiki-Takaは、主配列と残差配列を双方向に最適化することにより、臨界点に正確に収束する。
結論は、我々の理論的洞察を検証するシミュレーションによって支持される。
関連論文リスト
- Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective [125.00228936051657]
本稿では,タスク関連機能を適応的に生成しながら,タスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを紹介する。
最適化可能なパラメータを適切な正規化で微調整することにより、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-24T09:30:04Z) - Physics-Informed Weakly Supervised Learning for Interatomic Potentials [17.165117198519248]
我々は、機械学習型原子間ポテンシャルのトレーニングのための物理インフォームド、弱教師付きアプローチを導入する。
我々は、様々なベースラインモデルとベンチマークデータセットに対して、エネルギーと力の誤差を(しばしば2倍以下に)減らすことを示した。
論文 参考訳(メタデータ) (2024-07-23T12:49:04Z) - Towards Exact Gradient-based Training on Analog In-memory Computing [28.38387901763604]
アナログ加速器に関する推論は近年研究されているが、トレーニングの観点は過小評価されている。
近年の研究では、非理想デバイスでのモデルトレーニングに適用した場合、勾配降下(SGD)アルゴリズムの「ワークホース」が不正確に収束することが示されている。
本稿では,アナログデバイス上での勾配に基づくトレーニングの理論的基礎について述べる。
論文 参考訳(メタデータ) (2024-06-18T16:43:59Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Physics Informed Recurrent Neural Networks for Seismic Response
Evaluation of Nonlinear Systems [0.0]
本稿では,MDOF(Multi-of-freedom)システムの動的応答を評価するための新しい手法を提案する。
本研究の目的は, 非線形構造物の地震(地震)応答を評価することである。
予測された応答は、物理インフォームドRNNモデルの有効性を評価するためのFAAのような最先端の手法と比較される。
論文 参考訳(メタデータ) (2023-08-16T20:06:41Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Neuro-DynaStress: Predicting Dynamic Stress Distributions in Structural
Components [10.588266927411434]
高度に破壊的な事象をリアルタイムに予測することは、動的応力分布を予測することが重要である。
有限要素シミュレーションに基づいて, 応力分布の全列を予測するために, ディープラーニングモデルNeuro-DynaStressを提案する。
論文 参考訳(メタデータ) (2022-12-19T03:02:26Z) - Inverse-Dirichlet Weighting Enables Reliable Training of Physics
Informed Neural Networks [2.580765958706854]
我々は、深層ニューラルネットワークのトレーニング中に、スケール不均衡を伴うマルチスケールダイナミクスから生じる障害モードを記述し、治療する。
PINNは、物理方程式モデルとデータとのシームレスな統合を可能にする、一般的な機械学習テンプレートである。
逐次トレーニングを用いた逆モデリングでは,逆ディリクレ重み付けがPINNを破滅的忘れから保護することがわかった。
論文 参考訳(メタデータ) (2021-07-02T10:01:37Z) - Training End-to-End Analog Neural Networks with Equilibrium Propagation [64.0476282000118]
本稿では,勾配降下による終端から終端までのアナログニューラルネットワークの学習法を提案する。
数学的には、アナログニューラルネットワークのクラス(非線形抵抗性ネットワークと呼ばれる)がエネルギーベースモデルであることが示される。
我々の研究は、オンチップ学習をサポートする、超高速でコンパクトで低消費電力のニューラルネットワークの新世代の開発を導くことができる。
論文 参考訳(メタデータ) (2020-06-02T23:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。