論文の概要: Position: The Need for Ultrafast Training
- arxiv url: http://arxiv.org/abs/2602.02005v1
- Date: Mon, 02 Feb 2026 12:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.127929
- Title: Position: The Need for Ultrafast Training
- Title(参考訳): ポジション:超高速トレーニングの必要性
- Authors: Duc Hoang,
- Abstract要約: ドメイン特化FPGAは、科学的および工業的ワークロードにわたる低レイテンシ推論において、前例のないパフォーマンスを実現している。
推論のみのアクセラレータから、FPGAファブリック内で推論とトレーニングの両方が直接実行される超高速なオンチップ学習への移行を議論する。
- 参考スコア(独自算出の注目度): 2.049249624501703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain-specialized FPGAs have delivered unprecedented performance for low-latency inference across scientific and industrial workloads, yet nearly all existing accelerators assume static models trained offline, relegating learning and adaptation to slower CPUs or GPUs. This separation fundamentally limits systems that must operate in non-stationary, high-frequency environments, where model updates must occur at the timescale of the underlying physics. In this paper, I argue for a shift from inference-only accelerators to ultrafast on-chip learning, in which both inference and training execute directly within the FPGA fabric under deterministic, sub-microsecond latency constraints. Bringing learning into the same real-time datapath as inference would enable closed-loop systems that adapt as fast as the physical processes they control, with applications spanning quantum error correction, cryogenic qubit calibration, plasma and fusion control, accelerator tuning, and autonomous scientific experiments. Enabling such regimes requires rethinking algorithms, architectures, and toolflows jointly, but promises to transform FPGAs from static inference engines into real-time learning machines.
- Abstract(参考訳): ドメイン特化FPGAは、科学的および産業的なワークロードにわたって低レイテンシ推論のために前例のないパフォーマンスを達成しているが、既存のアクセラレーターのほとんどが、オフラインでトレーニングされた静的モデルを仮定し、学習と、遅いCPUやGPUへの適応を遅らせている。
この分離は、基礎となる物理の時間スケールでモデル更新を起こさなければならない非定常、高周波環境で動作しなければならないシステムに基本的に制限を与える。
本稿では、推論のみのアクセラレータから超高速のオンチップ学習への移行を論じ、推論とトレーニングの両方が決定論的、サブマイクロ秒レイテンシ制約の下でFPGAファブリック内で直接実行される。
推論と同じリアルタイムデータパスに学習を組み込むことで、量子エラー補正、低温量子ビット校正、プラズマと融合制御、加速器のチューニング、自律的な科学実験など、制御する物理プロセスと同じ速さで学習できるクローズドループシステムが可能になる。
このようなレシエーションを実現するには、アルゴリズム、アーキテクチャ、ツールフローを共同で再考する必要があるが、FPGAを静的推論エンジンからリアルタイム学習マシンに変換することを約束する。
関連論文リスト
- Continual Quantum Architecture Search with Tensor-Train Encoding: Theory and Applications to Signal Processing [68.35481158940401]
CL-QASは連続的な量子アーキテクチャ検索フレームワークである。
振幅のエンコードと変分量子回路の忘れを犠牲にすることの課題を緩和する。
制御可能なロバスト性表現性、サンプル効率の一般化、およびバレンプラトーを使わずに滑らかな収束を実現する。
論文 参考訳(メタデータ) (2026-01-10T02:36:03Z) - Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Fast Neural Network Inference on FPGAs for Triggering on Long-Lived
Particles at Colliders [0.0]
本研究では,中性長寿命粒子が検出器体積内で崩壊する事象を選択するための2つの機械学習アルゴリズムを提案する。
提案したアルゴリズムは, ベンチマークのシナリオにおいて有効であることが証明され, FPGAカード上での高速化では精度が劣化しないことが判明した。
論文 参考訳(メタデータ) (2023-07-11T10:17:57Z) - ETLP: Event-based Three-factor Local Plasticity for online learning with
neuromorphic hardware [105.54048699217668]
イベントベース3要素局所塑性(ETLP)の計算複雑性に明らかな優位性を有する精度の競争性能を示す。
また, 局所的可塑性を用いた場合, スパイキングニューロンの閾値適応, 繰り返しトポロジーは, 時間的構造が豊富な時間的パターンを学習するために必要であることを示した。
論文 参考訳(メタデータ) (2023-01-19T19:45:42Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - Fast and differentiable simulation of driven quantum systems [58.720142291102135]
我々は、ダイソン展開に基づく半解析手法を導入し、標準数値法よりもはるかに高速に駆動量子系を時間発展させることができる。
回路QEDアーキテクチャにおけるトランスモン量子ビットを用いた2量子ゲートの最適化結果を示す。
論文 参考訳(メタデータ) (2020-12-16T21:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。