論文の概要: DG-RePlAce: A Dataflow-Driven GPU-Accelerated Analytical Global Placement Framework for Machine Learning Accelerators
- arxiv url: http://arxiv.org/abs/2404.13049v2
- Date: Wed, 19 Jun 2024 22:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 04:18:42.170112
- Title: DG-RePlAce: A Dataflow-Driven GPU-Accelerated Analytical Global Placement Framework for Machine Learning Accelerators
- Title(参考訳): DG-RePlace: 機械学習アクセラレータのためのデータフロー駆動型GPU駆動型解析的グローバルプレースメントフレームワーク
- Authors: Andrew B. Kahng, Zhiang Wang,
- Abstract要約: DG-RePlAceは、OpenROADインフラストラクチャ上に構築された、GPUによる高速なグローバル配置フレームワークである。
提案手法は,DREAMPlace と比較して高速なグローバル配置とオンパー全実行時間により,経路長を10%削減し,全負スラック(TNS)を31%削減する。
- 参考スコア(独自算出の注目度): 0.6478490865903632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Global placement is a fundamental step in VLSI physical design. The wide use of 2D processing element (PE) arrays in machine learning accelerators poses new challenges of scalability and Quality of Results (QoR) for state-of-the-art academic global placers. In this work, we develop DG-RePlAce, a new and fast GPU-accelerated global placement framework built on top of the OpenROAD infrastructure, which exploits the inherent dataflow and datapath structures of machine learning accelerators. Experimental results with a variety of machine learning accelerators using a commercial 12nm enablement show that, compared with RePlAce (DREAMPlace), our approach achieves an average reduction in routed wirelength by 10% (7%) and total negative slack (TNS) by 31% (34%), with faster global placement and on-par total runtimes relative to DREAMPlace. Empirical studies on the TILOS MacroPlacement Benchmarks further demonstrate that post-route improvements over RePlAce and DREAMPlace may reach beyond the motivating application to machine learning accelerators.
- Abstract(参考訳): グローバル配置はVLSI物理設計の基本的なステップである。
機械学習アクセラレーターにおける2Dプロセッシングエレメント(PE)アレイの広範な使用は、最先端の学術的グローバルプレーサーにとって、スケーラビリティとQoR(Quality of Results)という新たな課題をもたらす。
本研究では,OpenROADインフラストラクチャ上に構築されたGPUを高速化する新しいグローバル配置フレームワークであるDG-RePlAceを開発し,機械学習アクセラレータの固有のデータフローとデータパス構造を利用する。
市販の12nmイネーブメントを用いた各種機械学習アクセラレータによる実験結果から,RePlAce(DREAMPlace)と比較して,経路線長を10%(7%),全負スラック(TNS)を31%削減し,より高速なグローバル配置とDREAMPlaceに対する全実行時間を実現した。
TILOS MacroPlacement Benchmarksに関する実証研究は、RePlAceとDREAMPlaceに対する時間後改善が、機械学習アクセラレーターへのモチベーション以上のものとなることをさらに証明している。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector [0.0]
本研究は, YOLOv9オブジェクト検出モデルに焦点をあて, アーキテクチャの革新, トレーニング方法論, 性能改善に焦点をあてる。
汎用高効率層集約ネットワークGELANやProgrammable Gradient Information PGIといった重要な進歩は、特徴抽出と勾配流を著しく向上させる。
本稿では, YOLOv9の内部特徴とその実世界の応用性について, リアルタイム物体検出の最先端技術として確立した。
論文 参考訳(メタデータ) (2024-09-12T07:46:58Z) - An Open-Source ML-Based Full-Stack Optimization Framework for Machine
Learning Accelerators [3.9343070428357225]
本稿では,ハードウェアアクセラレーション型ディープニューラルネットワーク(DNN)と非DNN機械学習アクセラレータのための物理設計駆動型学習ベース予測フレームワークを提案する。
提案手法は,2つのディープラーニングアクセラレータプラットフォームのASIC実装に対して,平均7%以下の予測誤差でバックエンドPPAとシステムメトリクスを連続的に予測することを示す。
論文 参考訳(メタデータ) (2023-08-23T13:16:31Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - A Faster, Lighter and Stronger Deep Learning-Based Approach for Place
Recognition [7.9400442516053475]
より速く、より軽く、より強力なアプローチを提案し、より少ないパラメータでモデルを生成でき、推論段階での時間を短縮できる。
本稿では,RepVG-liteをアーキテクチャのバックボーンネットワークとして設計する。
提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-11-27T15:46:53Z) - On-Device Domain Generalization [93.79736882489982]
ドメインの一般化はデバイス上の機械学習アプリケーションにとって重要である。
知識蒸留がこの問題の解決の有力な候補であることがわかった。
本研究では,教師が配布外データをどのように扱えるかを学生に教えることを目的とした,配布外知識蒸留(OKD)という簡単なアイデアを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:59:31Z) - AirDet: Few-Shot Detection without Fine-tuning for Autonomous
Exploration [16.032316550612336]
本稿では,支援画像とのクラス関係の学習による微調整が不要なAirDetを提案する。
AirDetは、徹底的に微調整された方法と同等またはそれ以上の結果を達成し、ベースラインで最大40~60%の改善を実現している。
DARPA潜水試験における実地探査実験の評価結果について述べる。
論文 参考訳(メタデータ) (2021-12-03T06:41:07Z) - Deep Learning Aided Packet Routing in Aeronautical Ad-Hoc Networks
Relying on Real Flight Data: From Single-Objective to Near-Pareto
Multi-Objective Optimization [79.96177511319713]
航空アドホックネットワーク(AANET)のルーティングを支援するために、ディープラーニング(DL)を起動する。
フォワードノードによって観測された局所的な地理的情報を最適な次のホップを決定するために必要な情報にマッピングするために、ディープニューラルネットワーク(DNN)が考案される。
DL支援ルーティングアルゴリズムを多目的シナリオに拡張し,遅延を最小化し,経路容量を最大化し,経路寿命を最大化する。
論文 参考訳(メタデータ) (2021-10-28T14:18:22Z) - Does Form Follow Function? An Empirical Exploration of the Impact of
Deep Neural Network Architecture Design on Hardware-Specific Acceleration [76.35307867016336]
本研究では,深層ニューラルネットワーク設計が推論速度向上の程度に与える影響について検討する。
ハードウェア固有のアクセラレーションを活用することで平均推論速度が380%向上する一方で、マクロアーキテクチャ設計パターンによって推論速度が大幅に変化することを示した。
論文 参考訳(メタデータ) (2021-07-08T23:05:39Z) - Evaluating Spatial Accelerator Architectures with Tiled Matrix-Matrix
Multiplication [4.878665155352402]
我々は,所定の空間加速器とワークロードの組み合わせに対して,階層化されたGEMMに対して最適化されたマッピングを求めるフレームワークを開発する。
5つの空間加速器を用いた評価結果から,本フレームワークが系統的に生成したGEMMマッピングは高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-06-19T13:53:58Z) - Deep Learning based Pedestrian Inertial Navigation: Methods, Dataset and
On-Device Inference [49.88536971774444]
慣性測定ユニット(IMU)は小型で安価でエネルギー効率が良く、スマートデバイスや移動ロボットに広く使われている。
正確で信頼性の高い歩行者ナビゲーションをサポートするために慣性データをエクスプロイトすることは、新しいインターネット・オブ・シングス・アプリケーションやサービスにとって重要なコンポーネントである。
我々は、深層学習に基づく慣性ナビゲーション研究のための最初の公開データセットであるOxIOD(OxIOD)を提示、リリースする。
論文 参考訳(メタデータ) (2020-01-13T04:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。