Fugu-MT 論文翻訳(概要): MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation

論文の概要: MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation

arxiv url: http://arxiv.org/abs/2407.01910v1
Date: Tue, 2 Jul 2024 03:21:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 16:53:49.195422
Title: MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation
Title（参考訳）: MG-Verilog:LLM支援ベリログ生成の強化を目指して
Authors: Yongan Zhang, Zhongzhi Yu, Yonggan Fu, Cheng Wan, Yingyan, Lin,
Abstract要約: 大規模言語モデル(LLM)は、ドメイン固有の膨大なデータをカプセル化することによって、ハードウェア設計プロセスの合理化を約束している。既存の利用可能なハードウェアデータセットは、サイズ、複雑さ、詳細に制限されることが多い。本稿では,多段階の詳細な記述と対応するコードサンプルを包含したMulti-Grained-Verilog(MG-Verilog)データセットを提案する。
参考スコア（独自算出の注目度）: 15.543279084166846
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have recently shown promise in streamlining hardware design processes by encapsulating vast amounts of domain-specific data. In addition, they allow users to interact with the design processes through natural language instructions, thus making hardware design more accessible to developers. However, effectively leveraging LLMs in hardware design necessitates providing domain-specific data during inference (e.g., through in-context learning), fine-tuning, or pre-training. Unfortunately, existing publicly available hardware datasets are often limited in size, complexity, or detail, which hinders the effectiveness of LLMs in hardware design tasks. To address this issue, we first propose a set of criteria for creating high-quality hardware datasets that can effectively enhance LLM-assisted hardware design. Based on these criteria, we propose a Multi-Grained-Verilog (MG-Verilog) dataset, which encompasses descriptions at various levels of detail and corresponding code samples. To benefit the broader hardware design community, we have developed an open-source infrastructure that facilitates easy access, integration, and extension of the dataset to meet specific project needs. Furthermore, to fully exploit the potential of the MG-Verilog dataset, which varies in complexity and detail, we introduce a balanced fine-tuning scheme. This scheme serves as a unique use case to leverage the diverse levels of detail provided by the dataset. Extensive experiments demonstrate that the proposed dataset and fine-tuning scheme consistently improve the performance of LLMs in hardware design tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ドメイン固有の膨大なデータをカプセル化することによって、ハードウェア設計プロセスの合理化を約束している。さらに、自然言語命令を通じて設計プロセスと対話できるため、ハードウェア設計が開発者にとってより使いやすくなります。しかし、ハードウェア設計においてLLMを効果的に活用するには、推論中にドメイン固有のデータ(例えば、コンテキスト内学習、微調整、事前学習)を提供する必要がある。残念ながら、既存の公開ハードウェアデータセットはサイズ、複雑さ、詳細に制限されることが多く、ハードウェア設計タスクにおけるLLMの有効性を妨げている。この問題に対処するために,我々はまず,LCM支援ハードウェア設計を効果的に強化できる高品質なハードウェアデータセットを作成するための基準セットを提案する。これらの基準に基づき,様々な詳細レベルの記述と対応するコードサンプルを包含する多言語Verilog(MG-Verilog)データセットを提案する。より広範なハードウェアデザインコミュニティに利益をもたらすため、特定のプロジェクトのニーズを満たすために、データセットのアクセス、統合、拡張を容易にするオープンソースのインフラストラクチャを開発しました。さらに,複雑性と細部が異なるMG-Verilogデータセットの可能性を完全に活用するために,バランスの取れた微調整方式を導入する。このスキームは、データセットが提供するさまざまな詳細レベルを活用するためのユニークなユースケースとして機能する。大規模な実験により,提案したデータセットと微調整方式はハードウェア設計タスクにおけるLCMの性能を一貫して改善することが示された。

関連論文リスト

ML For Hardware Design Interpretability: Challenges and Opportunities [3.3540424603831323]
本稿では,特にRTL-to-NLタスクにおける設計の解釈可能性が,ハードウェア設計プロセスの効率に与える影響について検討する。我々は,MLを活用したRTL-to-NLタスクの自動化とハードウェア設計の解釈性の向上について,今後の研究を導くことを目的としている。
論文参考訳（メタデータ） (2025-04-11T03:47:51Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
HiVeGen -- Hierarchical LLM-based Verilog Generation for Scalable Chip Design [55.54477725000291]
HiVeGenは階層的なVerilog生成フレームワークで、生成タスクを階層的なサブモジュールに分解する。自動設計空間探索(DSE)を階層対応のプロンプト生成に変換し、コードの再利用を強化するために重みに基づく検索を導入する。エラー補正コストを低減し、生成した設計の質を大幅に向上させる。
論文参考訳（メタデータ） (2024-12-06T19:37:53Z)
Specifications: The missing link to making the development of LLM systems an engineering discipline [65.10077876035417]
我々は、構造化出力、プロセスの監督、テストタイム計算など、これまでの分野の進歩について論じる。モジュール型かつ信頼性の高いLCMシステムの開発に向けた研究の今後の方向性について概説する。
論文参考訳（メタデータ） (2024-11-25T07:48:31Z)
Optimizing Token Usage on Large Language Model Conversations Using the Design Structure Matrix [49.1574468325115]
大規模言語モデルは、多くの分野やタスクにおいてユビキタスになる。トークンの使用を減らすこと、短いコンテキストウィンドウ、限られた出力サイズ、トークンの取り込みと生成に関連するコストといった課題を克服する必要がある。この作業は、エンジニアリング設計の分野からLLM会話最適化にデザイン構造マトリックスをもたらす。
論文参考訳（メタデータ） (2024-10-01T14:38:36Z)
Sketch: A Toolkit for Streamlining LLM Operations [51.33202045501429]
大規模言語モデル(LLM)は大きな成功を収めた。アウトプットフォーマットの柔軟性は、モデルのアウトプットを制御および活用する上での課題を引き起こします。スケッチ(Sketch)は、多種多様な分野にわたるLCM操作を合理化するための革新的なツールキットである。
論文参考訳（メタデータ） (2024-09-05T08:45:44Z)
A General-Purpose Device for Interaction with LLMs [3.052172365469752]
本稿では,大規模言語モデル(LLM)と高度なハードウェアの統合について検討する。我々は,LLMとの対話性の向上を目的とした汎用デバイスの開発に焦点をあてる。
論文参考訳（メタデータ） (2024-08-02T23:43:29Z)
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。 MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文参考訳（メタデータ） (2024-07-11T15:08:11Z)
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文参考訳（メタデータ） (2024-06-05T03:05:52Z)
Demystifying Platform Requirements for Diverse LLM Inference Use Cases [7.233203254714951]
本稿では,大規模言語モデル推論性能とプラットフォーム設計パラメータの関係を明らかにするための分析ツールGenZを提案する。 LLaMA や GPT-4 のような SOTA LLM モデルをサポートするためのプラットフォーム要件を,多様なサービス設定下で定量化する。結局のところ、この研究は、幅広いアプリケーションにまたがる大きな言語モデルの潜在能力を最大限に活用するためのプラットフォーム設計の考察に光を当てている。
論文参考訳（メタデータ） (2024-06-03T18:00:50Z)
A Blueprint Architecture of Compound AI Systems for Enterprise [18.109450556443782]
我々は、企業環境で運用する複合AIシステムのための青写真アーキテクチャを、費用対効果と実用性で導入する。提案したアーキテクチャは,既存の計算とデータインフラストラクチャとのシームレスな統合を目標としています。
論文参考訳（メタデータ） (2024-06-02T01:16:32Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
LLM4SecHW: Leveraging Domain Specific Large Language Model for Hardware Debugging [4.297043877989406]
本稿では,ドメイン固有大言語モデル(LLM)を利用したハードウェアデバッグのための新しいフレームワークを提案する。我々は、オープンソースのハードウェア設計欠陥のデータセットとその修正手順をコンパイルするためのユニークなアプローチを提案する。 LLM4SecHWは、このデータセットに基づいて中規模のLCMを微調整し、ハードウェア設計におけるバグの特定と修正を可能にする。
論文参考訳（メタデータ） (2024-01-28T19:45:25Z)
LLMs with User-defined Prompts as Generic Data Operators for Reliable Data Processing [13.901862478287509]
汎用データ演算子(LLM-GDO)として機能する大規模言語モデル(LLM)を提案する。 LLM-GDO設計パターンでは、ユーザ定義プロンプト(UDP)は特定のプログラミング言語の実装ではなく、データ処理ロジックを表現するために使われる。ドメイン固有のデータによる微調整 LLM は、データ処理の知識を意識するドメイン固有のタスクの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-26T23:08:38Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。