Fugu-MT 論文翻訳(概要): Coflex: Enhancing HW-NAS with Sparse Gaussian Processes for Efficient and Scalable DNN Accelerator Design

論文の概要: Coflex: Enhancing HW-NAS with Sparse Gaussian Processes for Efficient and Scalable DNN Accelerator Design

arxiv url: http://arxiv.org/abs/2507.23437v1
Date: Thu, 31 Jul 2025 11:16:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 17:19:09.615393
Title: Coflex: Enhancing HW-NAS with Sparse Gaussian Processes for Efficient and Scalable DNN Accelerator Design
Title（参考訳）: Coflex: 効率的なスケーラブルDNNアクセラレータ設計のためのスパースガウスプロセスによるHW-NASの強化
Authors: Yinhui Ma, Tomomasa Yamasaki, Zhehui Wang, Tao Luo, Bo Wang,
Abstract要約: ハードウェア・アウェア・ニューラルサーチ(HW-NAS)は、ニューラルネットワークの性能とハードウェアエネルギー効率を自動的に最適化する効率的なアプローチである。我々は,Sparse Gaussian Process(SGP)と多目的ベイズ最適化を統合した新しいHW-NASフレームワークであるCoflexを提案する。
参考スコア（独自算出の注目度）: 4.489116569191255
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hardware-Aware Neural Architecture Search (HW-NAS) is an efficient approach to automatically co-optimizing neural network performance and hardware energy efficiency, making it particularly useful for the development of Deep Neural Network accelerators on the edge. However, the extensive search space and high computational cost pose significant challenges to its practical adoption. To address these limitations, we propose Coflex, a novel HW-NAS framework that integrates the Sparse Gaussian Process (SGP) with multi-objective Bayesian optimization. By leveraging sparse inducing points, Coflex reduces the GP kernel complexity from cubic to near-linear with respect to the number of training samples, without compromising optimization performance. This enables scalable approximation of large-scale search space, substantially decreasing computational overhead while preserving high predictive accuracy. We evaluate the efficacy of Coflex across various benchmarks, focusing on accelerator-specific architecture. Our experi- mental results show that Coflex outperforms state-of-the-art methods in terms of network accuracy and Energy-Delay-Product, while achieving a computational speed-up ranging from 1.9x to 9.5x.
Abstract（参考訳）: ハードウェア・アウェア・ニューラル・アーキテクチャ・サーチ(HW-NAS)は、ニューラルネットワークの性能とハードウェアエネルギー効率を自動的に最適化する効率的なアプローチであり、エッジのディープ・ニューラル・ニューラルネットワーク・アクセラレーターの開発に特に有用である。しかし、膨大な検索スペースと高い計算コストは、その実践的採用に重大な課題をもたらす。このような制約に対処するため,Sparse Gaussian Process (SGP) と多目的ベイズ最適化を統合した新しいHW-NASフレームワークであるCoflexを提案する。スパースインジェクションポイントを利用することで、最適化性能を損なうことなく、トレーニングサンプルの数に関してGPカーネルの複雑さを立方体からほぼ直線に削減する。これにより、大規模検索空間のスケーラブルな近似が可能となり、高い予測精度を維持しながら計算オーバーヘッドを大幅に削減できる。各種ベンチマークにおけるCoflexの有効性を評価し,加速器固有のアーキテクチャに着目した。実験の結果,Coflexはネットワークの精度とエネルギー遅延率において最先端の手法より優れており,計算速度は1.9倍から9.5倍であることがわかった。

関連論文リスト

Hardware-aware Neural Architecture Search of Early Exiting Networks on Edge Accelerators [12.394874144369396]
エッジでの組み込みインテリジェンスに対する需要の増加は、厳密な計算とエネルギーの制約を課している。将来性のあるソリューションとして、Early Exiting Neural Networks (EENN)が登場した。ネットワークバックボーン内の早期終了点の配置を最適化するハードウェア対応ニューラルアーキテクチャサーチ(NAS)フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-04T11:54:09Z)
Comprehensive Design Space Exploration for Tensorized Neural Network Hardware Accelerators [11.97184801369339]
高次テンソル分解は、エッジ展開のためのコンパクトなディープニューラルネットワークを得るために広く採用されている。このようなハードウェアを意識しない設計は、テンソル化モデルの潜在的な遅延とエネルギーの利点を曖昧にすることが多い。テンソル化ニューラルネットワークの効率的なトレーニングと推論のために,これらの次元を統一設計空間内に統一する共同探索フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-22T08:18:40Z)
SpikeX: Exploring Accelerator Architecture and Network-Hardware Co-Optimization for Sparse Spiking Neural Networks [3.758294848902233]
本研究では,非構造的空間性から生じる課題と機会に対処するため,Systolic-array SNNアクセラレーターアーキテクチャであるSpikeXを提案する。 SpikeXはメモリアクセスを減らし、データ共有と時間と空間にまたがる計算を対象とするハードウェア利用を増加させる。
論文参考訳（メタデータ） (2025-05-18T08:07:44Z)
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文参考訳（メタデータ） (2025-03-20T21:03:10Z)
Sparks of Quantum Advantage and Rapid Retraining in Machine Learning [0.0]
本研究では、最小パラメータで複雑な関数を表現するために、強力なニューラルネットワークアーキテクチャを最適化する。高速再トレーニング機能を導入し、古いサンプルを再処理することなく、ネットワークを新しいデータで再トレーニングできるようにする。量子ハードウェアとアルゴリズム最適化のさらなる進歩により、量子最適化機械学習モデルが幅広い応用をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2024-07-22T19:55:44Z)
Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-20T17:08:42Z)
LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network through Spatial-Temporal Compressive Network Search and Joint Optimization [48.41286573672824]
スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高い。本稿では,空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込むLitE-SNNという新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-26T05:23:11Z)
Neural Architecture Codesign for Fast Bragg Peak Analysis [1.7081438846690533]
我々は,高速かつリアルタイムなブラッグピーク解析のためのニューラルネットワーク符号の合理化のための自動パイプラインを開発した。我々の手法では、ハードウェアコストを含むこれらのモデルを強化するために、ニューラルアーキテクチャ検索とAutoMLを使用し、よりハードウェア効率の良いニューラルアーキテクチャの発見に繋がる。
論文参考訳（メタデータ） (2023-12-10T19:42:18Z)
Convergence and scaling of Boolean-weight optimization for hardware reservoirs [0.0]
我々は、ランダムにリカレント接続されたニューラルネットワークの読み出し層を最適化するために、高効率なコーディネートDescentのスケーリング法則を解析的に導出した。本結果は,概念実証実験で実施した大規模フォトニック貯水池の収束とスケーリングを完璧に再現するものである。
論文参考訳（メタデータ） (2023-05-13T12:15:25Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Ps and Qs: Quantization-aware pruning for efficient low latency neural network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文参考訳（メタデータ） (2021-02-22T19:00:05Z)
Automated Design Space Exploration for optimised Deployment of DNN on Arm Cortex-A CPUs [13.628734116014819]
組み込みデバイスにおけるディープラーニングは、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発を促している。テストし、グローバルに最適化されたソリューションを得るには、アプローチの空間が大きすぎるため、クロスレベル最適化に関する研究が不足している。我々は、Arm Cortex-A CPUプラットフォーム上での最先端DNNの一連の結果を示し、最大4倍の性能向上とメモリの2倍以上の削減を実現した。
論文参考訳（メタデータ） (2020-06-09T11:00:06Z)
Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文参考訳（メタデータ） (2020-02-04T23:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。