Fugu-MT 論文翻訳(概要): A Many-ported and Shared Memory Architecture for High-Performance ADAS SoCs

論文の概要: A Many-ported and Shared Memory Architecture for High-Performance ADAS SoCs

arxiv url: http://arxiv.org/abs/2209.05731v1
Date: Tue, 13 Sep 2022 04:58:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-14 13:02:54.324355
Title: A Many-ported and Shared Memory Architecture for High-Performance ADAS SoCs
Title（参考訳）: 高性能ADAS SoCのための多ポート共有メモリアーキテクチャ
Authors: Hao Luan, Yu Yao, Chang Huang
Abstract要約: 本稿では,ADASアプリケーションへのネイティブ並列アクセス間で高いデータスループットを実現するための共有メモリアーキテクチャを提案する。その結果、提案アーキテクチャは、読み取りと書き込みの両方のアクセスに対して、100%近いスループットを提供することがわかった。また、設計のスケーラビリティとモジュラリティを確保しながら、ドメイン固有のペイロードに一貫性を持たせることもできる。
参考スコア（独自算出の注目度）: 11.760927352147798
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Increasing investment in computing technologies and the advancements in silicon technology has fueled rapid growth in advanced driver assistance systems (ADAS) and corresponding SoC developments. An ADAS SoC represents a heterogeneous architecture that consists of CPUs, GPUs and artificial intelligence (AI) accelerators. In order to guarantee its safety and reliability, it must process massive amount of raw data collected from multiple redundant sources such as high-definition video cameras, Radars, and Lidars to recognize objects correctly and to make the right decisions promptly. A domain specific memory architecture is essential to achieve the above goals. We present a shared memory architecture that enables high data throughput among multiple parallel accesses native to the ADAS applications. It also provides deterministic access latency with proper isolation under the stringent real-time QoS constraints. A prototype is built and analyzed. The results validate that the proposed architecture provides close to 100\% throughput for both read and write accesses generated simultaneously by many accessing masters with full injection rate. It can also provide consistent QoS to the domain specific payloads while enabling the scalability and modularity of the design.
Abstract（参考訳）: コンピューティング技術への投資の増加とシリコン技術の発展は、先進運転支援システム(adas)と対応するsocの発展を加速させた。 ADAS SoCはCPU、GPU、人工知能(AI)アクセラレータで構成される異種アーキテクチャである。安全性と信頼性を保証するため、高精細度ビデオカメラ、レーダー、ライダーなどの複数の冗長なソースから収集された大量の生データを処理し、オブジェクトを正しく認識し、迅速に正しい判断をしなければならない。上記の目標を達成するにはドメイン固有のメモリアーキテクチャが不可欠です。本稿では、adasアプリケーション固有の複数の並列アクセス間で高いデータスループットを実現する共有メモリアーキテクチャを提案する。また、厳密なリアルタイムQoS制約の下で適切に分離された決定論的アクセスレイテンシも提供する。プロトタイプが作られ、分析されます。その結果、提案アーキテクチャは、多くのアクセスマスターがフルインジェクションレートで同時に生成した読み取りおよび書き込みアクセスに対して、100倍近いスループットを提供することを確認した。また、設計のスケーラビリティとモジュラリティを確保しながら、ドメイン固有のペイロードに一貫したQoSを提供することもできる。

関連論文リスト

Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。 HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文参考訳（メタデータ） (2025-04-14T00:29:49Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。 AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-07T18:43:17Z)
Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文参考訳（メタデータ） (2024-07-12T09:24:34Z)
Using the Abstract Computer Architecture Description Language to Model AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文参考訳（メタデータ） (2024-01-30T19:27:16Z)
Search-time Efficient Device Constraints-Aware Neural Architecture Search [6.527454079441765]
コンピュータビジョンや自然言語処理といったディープラーニング技術は、計算コストが高く、メモリ集約的です。ニューラルアーキテクチャサーチ(NAS)によるデバイス制約に最適化されたタスク固有のディープラーニングアーキテクチャの構築を自動化する。本稿では,エッジデバイス制約を組み込んだ高速ニューラルネットワークアーキテクチャ探索の原理的手法であるDCA-NASを提案する。
論文参考訳（メタデータ） (2023-07-10T09:52:28Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
How to Reach Real-Time AI on Consumer Devices? Solutions for Programmable and Custom Architectures [7.085772863979686]
ディープニューラルネットワーク(DNN)は、オブジェクトや音声認識など、さまざまな人工知能(AI)推論タスクにおいて大きな進歩をもたらした。このようなAIモデルをコモディティデバイスにデプロイすることは、大きな課題に直面している。クロススタック手法によりリアルタイムな性能を実現する手法を提案する。
論文参考訳（メタデータ） (2021-06-21T11:23:12Z)
KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。 KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文参考訳（メタデータ） (2020-09-04T15:32:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。