Fugu-MT 論文翻訳(概要): Data-Driven Offline Optimization For Architecting Hardware Accelerators

論文の概要: Data-Driven Offline Optimization For Architecting Hardware Accelerators

arxiv url: http://arxiv.org/abs/2110.11346v1
Date: Wed, 20 Oct 2021 17:06:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-26 06:14:36.208162
Title: Data-Driven Offline Optimization For Architecting Hardware Accelerators
Title（参考訳）: データ駆動型ハードウェアアクセラレータのオフライン最適化
Authors: Aviral Kumar, Amir Yazdanbakhsh, Milad Hashemi, Kevin Swersky, Sergey Levine
Abstract要約: PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。 PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
参考スコア（独自算出の注目度）: 89.68870139177785
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Industry has gradually moved towards application-specific hardware accelerators in order to attain higher efficiency. While such a paradigm shift is already starting to show promising results, designers need to spend considerable manual effort and perform a large number of time-consuming simulations to find accelerators that can accelerate multiple target applications while obeying design constraints. Moreover, such a "simulation-driven" approach must be re-run from scratch every time the set of target applications or design constraints change. An alternative paradigm is to use a "data-driven", offline approach that utilizes logged simulation data, to architect hardware accelerators, without needing any form of simulations. Such an approach not only alleviates the need to run time-consuming simulation, but also enables data reuse and applies even when set of target applications changes. In this paper, we develop such a data-driven offline optimization method for designing hardware accelerators, dubbed PRIME, that enjoys all of these properties. Our approach learns a conservative, robust estimate of the desired cost function, utilizes infeasible points, and optimizes the design against this estimate without any additional simulator queries during optimization. PRIME architects accelerators -- tailored towards both single and multiple applications -- improving performance upon state-of-the-art simulation-driven methods by about 1.54x and 1.20x, while considerably reducing the required total simulation time by 93% and 99%, respectively. In addition, PRIME also architects effective accelerators for unseen applications in a zero-shot setting, outperforming simulation-based methods by 1.26x.
Abstract（参考訳）: 業界は、より高い効率を達成するために、アプリケーション固有のハードウェアアクセラレーターに徐々に移行してきた。このようなパラダイムシフトはすでに有望な結果を示し始めているが、設計者は設計制約に従って複数のターゲットアプリケーションを加速できるアクセラレータを見つけるために、かなりの手作業と膨大な時間を要するシミュレーションを行う必要がある。さらに、このような「シミュレーション駆動」アプローチは、ターゲットとなるアプリケーションや設計制約が変わるたびに、スクラッチからやり直さなければならない。別のパラダイムは、ログ化されたシミュレーションデータを利用する"データ駆動のオフラインアプローチを使用して、ハードウェアアクセラレーションを設計することである。このようなアプローチは、時間を要するシミュレーションの実行を緩和するだけでなく、データ再利用を可能にし、ターゲットアプリケーションのセットが変更しても適用することができる。本稿では,ハードウェアアクセラレーション設計のためのデータ駆動型オフライン最適化手法 prime を開発し,これらすべての特性を享受する。提案手法は,所望のコスト関数の保守的かつ堅牢な見積りを学習し,実現不可能な点を利用して,最適化中に追加のシミュレータークエリを使わずに設計を最適化する。 PRIMEアーキテクトは、シングルアプリケーションとマルチアプリケーションの両方に合わせた、最先端のシミュレーション駆動メソッドのパフォーマンスを約1.54倍と1.20倍改善し、必要なシミュレーション時間をそれぞれ93%と99%削減した。さらにprimeは、ゼロショット設定のアプリケーションに対して効果的なアクセラレーターを設計でき、シミュレーションベースのメソッドを1.26倍上回っている。

関連論文リスト

COGNATE: Acceleration of Sparse Tensor Programs on Emerging Hardware using Transfer Learning [6.884173899890476]
COGNATEは、汎用ハードウェアの安価なデータサンプルを利用してコストモデルをトレーニングする新しいフレームワークである。我々はCOGNATEが既存の技術より優れており、SDDMMでは1.47倍(最大5.46倍)、SDDMMでは1.39倍(最大4.22倍)のスピードアップを実現していることを示した。
論文参考訳（メタデータ） (2025-05-31T06:59:55Z)
Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。 xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文参考訳（メタデータ） (2025-03-18T23:15:02Z)
INSIGHT: Universal Neural Simulator for Analog Circuits Harnessing Autoregressive Transformers [13.94505840368669]
INSIGHTはアナログフロントエンド設計自動化ループにおける効果的なユニバーサルニューラルネットワークシミュレータである。アナログ回路の性能指標を数マイクロ秒の推論時間で正確に予測する。
論文参考訳（メタデータ） (2024-07-10T03:52:53Z)
Tao: Re-Thinking DL-based Microarchitecture Simulation [8.501776613988484]
既存のマイクロアーキテクチャシミュレータは、異なる側面で優れ、不足している。ディープラーニング(DL)ベースのシミュレーションは驚くほど高速で、精度は極めて高いが、適切な低レベルのマイクロアーキテクチャのパフォーマンス指標を提供することができない。本稿では,3つの主要な貢献により,DLに基づくシミュレーションを再設計するTAOを紹介する。
論文参考訳（メタデータ） (2024-04-16T21:45:10Z)
Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。 DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文参考訳（メタデータ） (2024-03-26T12:31:58Z)
Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。 TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文参考訳（メタデータ） (2023-10-12T20:49:15Z)
Surrogate Neural Networks for Efficient Simulation-based Trajectory Planning Optimization [28.292234483886947]
本稿では、ニューラルネットワークの形で代理モデルを用いて、参照軌道のシミュレーションに基づく最適化の計算時間を短縮する手法を提案する。提案手法は,従来よりも74%優れた参照軌道が得られており,計算時間が大幅に短縮されることが明らかとなった。
論文参考訳（メタデータ） (2023-03-30T15:44:30Z)
TransCODE: Co-design of Transformers and Accelerators for Efficient Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文参考訳（メタデータ） (2023-03-27T02:45:18Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
A Construction Kit for Efficient Low Power Neural Network Accelerator Designs [11.807678100385164]
この研究は、最近の研究で使用されているニューラルネットワークアクセラレータ最適化アプローチの調査を提供する。建設キットとして最適化と定量的効果のリストを提示し、各ビルディングブロックの設計選択を個別に評価する。
論文参考訳（メタデータ） (2021-06-24T07:53:56Z)
Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文参考訳（メタデータ） (2021-03-12T00:22:50Z)
AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文参考訳（メタデータ） (2020-08-16T11:36:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。