論文の概要: ODIN-Based CPU-GPU Architecture with Replay-Driven Simulation and Emulation
- arxiv url: http://arxiv.org/abs/2603.16812v1
- Date: Tue, 17 Mar 2026 17:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.446892
- Title: ODIN-Based CPU-GPU Architecture with Replay-Driven Simulation and Emulation
- Title(参考訳): リプレイ駆動シミュレーションとエミュレーションを備えたODINベースのCPU-GPUアーキテクチャ
- Authors: Nij Dorairaj, Debabrata Chatterjee, Hong Wang, Hong Jiang, Alankar Saxena, Altug Koker, Thiam Ern Lim, Cathrane Teoh, Chuan Yin Loo, Bishara Shomar, Anthony Lester,
- Abstract要約: CPUとGPUテクノロジの統合は、現代のAIとグラフィックワークロードにとって重要な実現方法である。
本稿では、CPUサブシステム、複数のXe GPUコア、ネットワークオンチップ(NoC)の統合時に開発されたリプレイ駆動型検証手法を提案する。
単一の設計データベースを使用してシミュレーションとエミュレーションの両方で決定論的波形のキャプチャと再生を活用することで、複雑なGPUワークロードとプロトコルシーケンスをシステムレベルで確実に再現することができる。
- 参考スコア(独自算出の注目度): 3.1001376169814656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integration of CPU and GPU technologies is a key enabler for modern AI and graphics workloads, combining control-oriented processing with massive parallel compute capability. As systems evolve toward chiplet-based architectures, pre-silicon validation of tightly coupled CPU-GPU subsystems becomes increasingly challenging due to complex validation framework setup, large design scale, high concurrency, non-deterministic execution, and intricate protocol interactions at chiplet boundaries, often resulting in long integration cycles. This paper presents a replay-driven validation methodology developed during the integration of a CPU subsystem, multiple Xe GPU cores, and a configurable Network-on-Chip (NoC) within a foundational SoC building block targeting the ODIN integrated chiplet architecture. By leveraging deterministic waveform capture and replay across both simulation and emulation using a single design database, complex GPU workloads and protocol sequences can be reproduced reliably at the system level. This approach significantly accelerates debug, improves integration confidence, and enables end-to-end system boot and workload execution within a single quarter, demonstrating the effectiveness of replay-based validation as a scalable methodology for chiplet-based systems.
- Abstract(参考訳): CPUとGPU技術の統合は、制御指向処理と巨大な並列計算能力を組み合わせた、現代のAIとグラフィックワークロードにとって重要な実現方法である。
システムがチップレットベースのアーキテクチャへと進化するにつれて、複雑な検証フレームワークのセットアップ、大規模な設計スケール、高並列性、非決定論的実行、チップレット境界での複雑なプロトコルインタラクションなどにより、タイトに結合したCPU-GPUサブシステムのプレシリコン検証がますます困難になる。
本稿では,CPUサブシステム,複数のXe GPUコア,構成可能なネットワークオンチップ(NoC)をODIN統合チップレットアーキテクチャをターゲットとしたSoCビルディングブロック内に組み込んだリプレイ駆動型検証手法を提案する。
単一の設計データベースを使用してシミュレーションとエミュレーションの両方で決定論的波形のキャプチャと再生を活用することで、複雑なGPUワークロードとプロトコルシーケンスをシステムレベルで確実に再現することができる。
このアプローチはデバッグを著しく加速し、統合信頼性を改善し、一四半期でエンドツーエンドのシステムブートとワークロードの実行を可能にし、チップレットベースのシステムのスケーラブルな方法論としてのリプレイベースのバリデーションの有効性を実証する。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Scalable GPU-Based Integrity Verification for Large Machine Learning Models [4.301162531343759]
我々は、CPUとGPUプラットフォーム間の整合性保護を標準化することで、分散機械学習を強化するセキュリティフレームワークを提案する。
提案手法は,GPUアクセラレータ上での大規模なMLモデル実行と直接的に整合性検証を行う。
私たちは、基盤となるCPUやGPUインフラストラクチャに関係なく、エンタープライズチームがデプロイできるハードウェアに依存しない基盤を提供します。
論文 参考訳(メタデータ) (2025-10-27T23:45:21Z) - Platform-Agnostic Modular Architecture for Quantum Benchmarking [1.0654458441169534]
量子コンピューティングベンチマークの断片化がますます進んでいる状況に対処する,プラットフォームに依存しないモジュールアーキテクチャを提案する。
我々はBernstein-Vaziraniのような単純なテストから、観測可能な計算を伴う複雑なハミルトンシミュレーションまで、20以上のベンチマーク変種をサポートしている。
このアーキテクチャは、進化を続けるQED-C Application-Oriented Performance Benchmarks for Quantum Computingスイートの重要な拡張として開発されている。
論文 参考訳(メタデータ) (2025-10-09T17:09:56Z) - EmuPlat: A Framework-Agnostic Platform for Quantum Hardware Emulation with Validated Transpiler-to-Pulse Pipeline [2.0785699263580475]
EmuPlatはフレームワークに依存しない量子ハードウェアエミュレーションプラットフォームである。
高レベルの量子プログラミングフレームワークとハードウェア固有のパルス制御システムとの相互運用性のギャップに対処する。
EmuPlatは、さまざまな量子コンピューティングエコシステム間のシームレスな統合を可能にする統一されたインフラストラクチャを提供する。
論文 参考訳(メタデータ) (2025-09-16T03:56:23Z) - Towards System-Level Quantum-Accelerator Integration [3.4486179803947254]
本稿では,量子加速器と処理ユニットを周辺システムコンポーネントとして扱う垂直統合量子システムアーキテクチャを提案する。
中心となる要素は、オペレーティングシステムのカーネルレベルでの量子抽象層(QAL)である。
本稿では,QEMUに基づく仮想QPUモデルを含む,このような統合アーキテクチャに向けた最初の結果を示す。
論文 参考訳(メタデータ) (2025-07-25T12:30:42Z) - Co-design of a novel CMOS highly parallel, low-power, multi-chip neural network accelerator [0.0]
我々は,並列処理(>10X)を大幅に高速化し,消費電力を大幅に削減する新しい低消費電力ASICAIプロセッサであるNV-1を提案する。
結果のデバイスは、現在、フィールド化されたエッジセンサーアプリケーションで使用されている。
論文 参考訳(メタデータ) (2024-09-28T15:47:16Z) - Parallelized Spatiotemporal Binding [47.67393266882402]
逐次入力のための最初の時間並列化可能なスロット学習アーキテクチャであるPSB(Parallelizable Spatiotemporal Binder)を導入する。
従来のRNNベースのアプローチとは異なり、PSBは全ての時間ステップを並列に、スロットとして知られるオブジェクト中心の表現を生成する。
現状と比較して、我々のアーキテクチャはより長いシーケンスで安定したトレーニングを行い、トレーニング速度が60%向上する並列化を実現し、教師なしの2Dおよび3Dオブジェクト中心のシーン分解と理解に匹敵する性能を得る。
論文 参考訳(メタデータ) (2024-02-26T23:16:34Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文 参考訳(メタデータ) (2020-12-08T04:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。