Fugu-MT 論文翻訳(概要): DRAGON (Differentiable Graph Execution) : A suite of Hardware Simulation and Optimization tools for Modern AI/Non-AI Workloads

論文の概要: DRAGON (Differentiable Graph Execution) : A suite of Hardware Simulation and Optimization tools for Modern AI/Non-AI Workloads

arxiv url: http://arxiv.org/abs/2204.06676v8
Date: Fri, 27 Jun 2025 00:31:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-07 14:35:03.846379
Title: DRAGON (Differentiable Graph Execution) : A suite of Hardware Simulation and Optimization tools for Modern AI/Non-AI Workloads
Title（参考訳）: DRAGON (Differentiable Graph Execution) : 最新のAI/非AIワークロードのためのハードウェアシミュレーションと最適化ツールスイート
Authors: Khushal Sethi,
Abstract要約: DRAGONは、高速で説明可能なハードウェアシミュレーションと最適化ツールチェーンである。ハードウェアアーキテクトはハードウェア設計をシミュレートし、ハードウェア設計を最適化してワークロードを効率的に実行することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce DRAGON, a fast and explainable hardware simulation and optimization toolchain that enables hardware architects to simulate hardware designs, and to optimize hardware designs to efficiently execute workloads. The DRAGON toolchain provides the following tools: Hardware Model Generator (DGen), Hardware Simulator (DSim) and Hardware Optimizer (DOpt). DSim provides the simulation of running algorithms (represented as data-flow graphs) on hardware described. DGen describes the hardware in detail, with user input architectures/technology (represented in a custom description language). A novel methodology of gradient descent from the simulation allows us optimize the hardware model (giving the directions for improvements in technology parameters and design parameters), provided by Dopt. DRAGON framework (DSim) is much faster than previously avaible works for simulation, which is possible through performance-first code writing practices, mathematical formulas for common computing operations to avoid cycle-accurate simulation steps, efficient algorithms for mapping, and data-structure representations for hardware state. DRAGON framework (Dopt) generates performance optimized architectures for both AI and Non-AI Workloads, and provides technology improvement directions for 100x-1000x better future computing systems.
Abstract（参考訳）: ハードウェアアーキテクトがハードウェア設計をシミュレートし,ハードウェア設計を最適化してワークロードを効率的に実行する,高速で説明可能なハードウェアシミュレーションと最適化ツールチェーンであるDRAGONを紹介した。 DRAGONツールチェーンは、ハードウェアモデルジェネレータ(DGen)、ハードウェアシミュレータ(DSim)、ハードウェア最適化器(DOpt)というツールを提供する。 DSimは、記述されたハードウェア上での(データフローグラフとして表現される)実行アルゴリズムのシミュレーションを提供する。 DGenは、ユーザー入力アーキテクチャ/技術(カスタム記述言語で表現される)で、ハードウェアを詳細に記述している。シミュレーションから勾配降下する新しい手法により、Doptが提供するハードウェアモデル(技術パラメータと設計パラメータの改善のための方向を決定する)を最適化することができる。 DRAGONフレームワーク(DSim)は、パフォーマンス優先のコード記述プラクティス、サイクル精度のシミュレーションステップを避けるための共通コンピューティング操作のための数学的公式、マッピングのための効率的なアルゴリズム、ハードウェア状態のためのデータ構造表現などを通じて実現可能な、シミュレーションの有効な作業よりもはるかに高速である。 DRAGONフレームワーク(Dopt)は、AIと非AIワークロードの両方のパフォーマンス最適化アーキテクチャを生成し、100x-1000倍の性能向上のための技術改善の方向性を提供する。

関連論文リスト

CityGS-X: A Scalable Architecture for Efficient and Geometrically Accurate Large-Scale Scene Reconstruction [79.1905347777988]
CityGS-Xは、新しい並列化ハイブリッド階層型3D表現(PH2-3D)上に構築されたスケーラブルアーキテクチャであるトレーニング時間の短縮、レンダリング能力の向上、大規模シーンにおけるより正確な幾何学的詳細といった点で、既存の手法よりも一貫して優れています。
論文参考訳（メタデータ） (2025-03-29T11:33:39Z)
Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。 xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文参考訳（メタデータ） (2025-03-18T23:15:02Z)
Using the Abstract Computer Architecture Description Language to Model AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文参考訳（メタデータ） (2024-01-30T19:27:16Z)
DEAP: Design Space Exploration for DNN Accelerator Parallelism [0.0]
大規模言語モデル(LLM)はますます複雑で、訓練やサービスにも強力になっています。本稿では、ハードウェアとソフトウェアの共同設計がどのように連携し、カスタマイズされたハードウェアシステムを構築するかを示す。
論文参考訳（メタデータ） (2023-12-24T02:43:01Z)
An approach to performance portability through generic programming [0.0]
この研究は、低レベルおよび冗長なプログラミングツールを、C++のテンプレートメタプログラミングに基づく高レベルな汎用アルゴリズムに統合するための設計アプローチを説明する。これにより、HPCのハードウェアの多様化期間において、科学ソフトウェアは保守性と効率が向上する。
論文参考訳（メタデータ） (2023-11-08T21:54:43Z)
Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。 TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文参考訳（メタデータ） (2023-10-12T20:49:15Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
HW-Aware Initialization of DNN Auto-Tuning to Improve Exploration Time and Robustness [1.165213554548421]
本研究は,VTAハードウェアにおける自動チューニングプロセスとその基盤となる性能予測モデルに,不正な構成がどう影響するかを評価する。 AutoTVMの妥当性駆動方式が開発され、最良のソリューションを見つけるのに必要なハードウェアの41.6%しか必要としない。
論文参考訳（メタデータ） (2022-05-31T07:16:14Z)
A modular software framework for the design and implementation of ptychography algorithms [55.41644538483948]
我々は,Pychographyデータセットをシミュレートし,最先端の再構築アルゴリズムをテストすることを目的とした,新しいptychographyソフトウェアフレームワークであるSciComを紹介する。その単純さにもかかわらず、ソフトウェアはPyTorchインターフェースによる高速化処理を利用する。結果は合成データと実データの両方で示される。
論文参考訳（メタデータ） (2022-05-06T16:32:37Z)
DiffSkill: Skill Abstraction from Differentiable Physics for Deformable Object Manipulations with Tools [96.38972082580294]
DiffSkillは、変形可能なオブジェクト操作タスクを解決するために、スキル抽象化に微分可能な物理シミュレータを使用する新しいフレームワークである。特に、勾配に基づくシミュレーターから個々のツールを用いて、まず短距離のスキルを得る。次に、RGBD画像を入力として取り込む実演軌跡から、ニューラルネットワークの抽象体を学習する。
論文参考訳（メタデータ） (2022-03-31T17:59:38Z)
Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。 PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文参考訳（メタデータ） (2021-10-20T17:06:09Z)
Rethinking Co-design of Neural Architectures and Hardware Accelerators [31.342964958282092]
我々は,ニューラルアーキテクチャとハードウェアアクセラレータの協調設計の重要性と戦略を体系的に研究する。実験の結果, 統合探索法は, 従来のプラットフォーム認識型ニューラルアーキテクチャ検索を一貫して上回っていることがわかった。提案手法は, エッジ加速器のエネルギー消費量を, 同じ精度で最大2倍に削減できる。
論文参考訳（メタデータ） (2021-02-17T07:55:58Z)
Optimising AI Training Deployments using Graph Compilers and Containers [0.0]
ディープニューラルネットワーク(DNN)やディープラーニング(DL)に基づくAIアプリケーションは、分析や音声認識といった問題の解決に成功したことで人気を集めている。我々はMODAKを導入し、コンテナ技術とAI用のグラフコンパイラをレビューする。
論文参考訳（メタデータ） (2020-08-26T16:58:32Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。