Fugu-MT 論文翻訳(概要): LLM-Aided Compilation for Tensor Accelerators

論文の概要: LLM-Aided Compilation for Tensor Accelerators

arxiv url: http://arxiv.org/abs/2408.03408v1
Date: Tue, 6 Aug 2024 19:10:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-08 17:40:15.862181
Title: LLM-Aided Compilation for Tensor Accelerators
Title（参考訳）: テンソル加速器のLCM支援コンパイル
Authors: Charles Hong, Sahil Bhatia, Altan Haan, Shengjun Kris Dong, Dima Nikiforov, Alvin Cheung, Yakun Sophia Shao,
Abstract要約: 我々は,大規模言語モデル(LLM)を用いてハードウェアアクセラレーター用のコンパイラを構築する方法について論じる。具体的には,GPT-4がGemminiアクセラレータへのコード変換において高いパスレートを達成する能力を示す。また,LLMを利用してハードウェア最適化コードを生成するための2フェーズワークフローを提案する。
参考スコア（独自算出の注目度）: 6.709490736813537
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hardware accelerators, in particular accelerators for tensor processing, have many potential application domains. However, they currently lack the software infrastructure to support the majority of domains outside of deep learning. Furthermore, a compiler that can easily be updated to reflect changes at both application and hardware levels would enable more agile development and design space exploration of accelerators, allowing hardware designers to realize closer-to-optimal performance. In this work, we discuss how large language models (LLMs) could be leveraged to build such a compiler. Specifically, we demonstrate the ability of GPT-4 to achieve high pass rates in translating code to the Gemmini accelerator, and prototype a technique for decomposing translation into smaller, more LLM-friendly steps. Additionally, we propose a 2-phase workflow for utilizing LLMs to generate hardware-optimized code.
Abstract（参考訳）: ハードウェアアクセラレータ、特にテンソル処理のアクセラレータは、多くの潜在的なアプリケーションドメインを持っている。しかし現時点では、ディープラーニング以外のほとんどのドメインをサポートするためのソフトウェアインフラストラクチャが欠如している。さらに、アプリケーションレベルとハードウェアレベルの変更を反映するように簡単に更新できるコンパイラは、よりアジャイルな開発と、アクセラレータの設計スペースの探索を可能にし、ハードウェア設計者がより近くから最適のパフォーマンスを実現することができる。本研究では,大規模な言語モデル(LLM)を用いて,そのようなコンパイラを構築する方法について論じる。具体的には、GPT-4がGemminiアクセラレーターへのコード変換において高いパスレートを達成することを実証し、より小さく、よりLLMフレンドリーなステップに翻訳を分解するテクニックを試作する。さらに,LLMを利用してハードウェア最適化コードを生成するための2フェーズワークフローを提案する。

関連論文リスト

A High-Level Compiler Integration Approach for Deep Learning Accelerators Supporting Abstraction and Optimization [1.2828127925625228]
本稿では,GEMMに基づくディープラーニングアクセラレータを対象とするTVMベースのコンパイル統合手法を提案する。我々のアプローチは、コンパイラ統合の複雑さを抽象化し、アクセラレータのシームレスな統合を可能にします。我々のフレームワークはGemminiアクセラレータでベンチマークされており、手動で実装されたツールチェーンに匹敵するパフォーマンスを示している。
論文参考訳（メタデータ） (2025-07-07T09:50:15Z)
Autocomp: LLM-Driven Code Optimization for Tensor Accelerators [7.384883165968798]
Autocompは、アクセラレータープログラマがドメイン知識とハードウェアフィードバックを利用してコードを最適化することを可能にするアプローチである。我々はAutocomp最適化コードがベンダーが提供するライブラリよりも高速に5.6倍(GEMM)と2.7倍(畳み込み)を実行することを示した。
論文参考訳（メタデータ） (2025-05-24T07:35:34Z)
ML For Hardware Design Interpretability: Challenges and Opportunities [3.3540424603831323]
本稿では,特にRTL-to-NLタスクにおける設計の解釈可能性が,ハードウェア設計プロセスの効率に与える影響について検討する。我々は,MLを活用したRTL-to-NLタスクの自動化とハードウェア設計の解釈性の向上について,今後の研究を導くことを目的としている。
論文参考訳（メタデータ） (2025-04-11T03:47:51Z)
VecTrans: Enhancing Compiler Auto-Vectorization through LLM-Assisted Code Transformations [17.974013479973774]
VecTransは、コンパイラベースのコードベクトル化を強化するために、大きな言語モデルを活用するフレームワークである。 VecTransは1.77倍のGeomeanスピードアップを実現し、51のテストケースのうち24をベクトル化することに成功した。
論文参考訳（メタデータ） (2025-03-25T08:39:35Z)
HADES: Hardware Accelerated Decoding for Efficient Speculation in Large Language Models [1.2180334969164464]
大規模言語モデル(LLM)は、人間に似たテキストを理解し、生成することで自然言語処理に革命をもたらした。本稿では,LLMの性能とエネルギー効率を向上させる新しい手法であるハードウェア高速化復号法(HADES)を提案する。
論文参考訳（メタデータ） (2024-12-27T21:19:01Z)
HiVeGen -- Hierarchical LLM-based Verilog Generation for Scalable Chip Design [55.54477725000291]
HiVeGenは階層的なVerilog生成フレームワークで、生成タスクを階層的なサブモジュールに分解する。自動設計空間探索(DSE)を階層対応のプロンプト生成に変換し、コードの再利用を強化するために重みに基づく検索を導入する。エラー補正コストを低減し、生成した設計の質を大幅に向上させる。
論文参考訳（メタデータ） (2024-12-06T19:37:53Z)
Designing Efficient LLM Accelerators for Edge Devices [1.4128048241287314]
大きな言語モデル(LLM)は、リソース制約のあるエッジデバイスにデプロイすることで、ネットワーク接続への依存を低減し、よりプライバシーを提供する。この問題に対処するため、LLM推論のための新しい効率的なエッジアクセラレータを設計することが重要である。本稿では,効率的なFPGAベースのLCMアクセラレータの設計,統合,展開プロセスの合理化にSECDA手法を用いるSECDA-LLMを提案する。
論文参考訳（メタデータ） (2024-08-01T11:06:05Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
DEAP: Design Space Exploration for DNN Accelerator Parallelism [0.0]
大規模言語モデル(LLM)はますます複雑で、訓練やサービスにも強力になっています。本稿では、ハードウェアとソフトウェアの共同設計がどのように連携し、カスタマイズされたハードウェアシステムを構築するかを示す。
論文参考訳（メタデータ） (2023-12-24T02:43:01Z)
RedCoast: A Lightweight Tool to Automate Distributed Training of LLMs on Any GPU/TPUs [32.01139974519813]
大規模言語モデル(LLM)の分散トレーニングと推論を自動化するツールであるRedCoastを紹介する。また,3つの関数の定義により,多様なMLパイプラインをカスタマイズする機構を提案する。その結果、Redcoの実装は公式実装に比べてコード行数が大幅に減った。
論文参考訳（メタデータ） (2023-10-25T04:32:35Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。 CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文参考訳（メタデータ） (2023-05-31T05:24:48Z)
Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文参考訳（メタデータ） (2023-04-17T09:27:40Z)
SeLoC-ML: Semantic Low-Code Engineering for Machine Learning Applications in Industrial IoT [9.477629856092218]
本稿では,Semantic Low-Code Engineering for ML Applications (SeLoC-ML) というフレームワークを提案する。 SeLoC-MLは、非専門家が大規模なMLモデルやデバイスをモデル化し、発見し、再利用することを可能にする。開発者は、レシピと呼ばれるセマンティックなアプリケーションテンプレートから、エンドユーザアプリケーションのプロトタイプを高速に作成できる。
論文参考訳（メタデータ） (2022-07-18T13:06:21Z)
CFU Playground: Full-Stack Open-Source Framework for Tiny Machine Learning (tinyML) Acceleration on FPGAs [2.2177069086277195]
CFU Playgroundは、組み込みMLシステムのための機械学習アクセラレータ(ML)の迅速かつ反復的な設計を可能にする、フルスタックのオープンソースフレームワークである。我々のツールはFPGAと将来のシステム研究におけるハードウェアとソフトウェアの共同設計のために、完全にオープンソースでエンドツーエンドのフローを提供する。私たちの迅速なデプロイ-注目-最適化フィードバックループによって、MLハードウェアとソフトウェア開発者は、比較的小さな投資から大きなリターンを得られるようになります。
論文参考訳（メタデータ） (2022-01-05T23:15:58Z)
Enabling Retargetable Optimizing Compilers for Quantum Accelerators via a Multi-Level Intermediate Representation [78.8942067357231]
我々は、最適化され、再ターゲット可能で、事前コンパイルが可能なマルチレベル量子古典中間表現(IR)を提案する。ゲートベースのOpenQASM 3言語全体をサポートし、共通量子プログラミングパターンのカスタム拡張と構文の改善を提供します。私たちの研究は、通常のPythonのアプローチよりも1000倍高速で、スタンドアロンの量子言語コンパイラよりも5～10倍高速なコンパイル時間を実現しています。
論文参考訳（メタデータ） (2021-09-01T17:29:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。