論文の概要: MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation
- arxiv url: http://arxiv.org/abs/2407.01910v1
- Date: Tue, 2 Jul 2024 03:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:53:49.195422
- Title: MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation
- Title(参考訳): MG-Verilog:LLM支援ベリログ生成の強化を目指して
- Authors: Yongan Zhang, Zhongzhi Yu, Yonggan Fu, Cheng Wan, Yingyan, Lin,
- Abstract要約: 大規模言語モデル(LLM)は、ドメイン固有の膨大なデータをカプセル化することによって、ハードウェア設計プロセスの合理化を約束している。
既存の利用可能なハードウェアデータセットは、サイズ、複雑さ、詳細に制限されることが多い。
本稿では,多段階の詳細な記述と対応するコードサンプルを包含したMulti-Grained-Verilog(MG-Verilog)データセットを提案する。
- 参考スコア(独自算出の注目度): 15.543279084166846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have recently shown promise in streamlining hardware design processes by encapsulating vast amounts of domain-specific data. In addition, they allow users to interact with the design processes through natural language instructions, thus making hardware design more accessible to developers. However, effectively leveraging LLMs in hardware design necessitates providing domain-specific data during inference (e.g., through in-context learning), fine-tuning, or pre-training. Unfortunately, existing publicly available hardware datasets are often limited in size, complexity, or detail, which hinders the effectiveness of LLMs in hardware design tasks. To address this issue, we first propose a set of criteria for creating high-quality hardware datasets that can effectively enhance LLM-assisted hardware design. Based on these criteria, we propose a Multi-Grained-Verilog (MG-Verilog) dataset, which encompasses descriptions at various levels of detail and corresponding code samples. To benefit the broader hardware design community, we have developed an open-source infrastructure that facilitates easy access, integration, and extension of the dataset to meet specific project needs. Furthermore, to fully exploit the potential of the MG-Verilog dataset, which varies in complexity and detail, we introduce a balanced fine-tuning scheme. This scheme serves as a unique use case to leverage the diverse levels of detail provided by the dataset. Extensive experiments demonstrate that the proposed dataset and fine-tuning scheme consistently improve the performance of LLMs in hardware design tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ドメイン固有の膨大なデータをカプセル化することによって、ハードウェア設計プロセスの合理化を約束している。
さらに、自然言語命令を通じて設計プロセスと対話できるため、ハードウェア設計が開発者にとってより使いやすくなります。
しかし、ハードウェア設計においてLLMを効果的に活用するには、推論中にドメイン固有のデータ(例えば、コンテキスト内学習、微調整、事前学習)を提供する必要がある。
残念ながら、既存の公開ハードウェアデータセットはサイズ、複雑さ、詳細に制限されることが多く、ハードウェア設計タスクにおけるLLMの有効性を妨げている。
この問題に対処するために,我々はまず,LCM支援ハードウェア設計を効果的に強化できる高品質なハードウェアデータセットを作成するための基準セットを提案する。
これらの基準に基づき,様々な詳細レベルの記述と対応するコードサンプルを包含する多言語Verilog(MG-Verilog)データセットを提案する。
より広範なハードウェアデザインコミュニティに利益をもたらすため、特定のプロジェクトのニーズを満たすために、データセットのアクセス、統合、拡張を容易にするオープンソースのインフラストラクチャを開発しました。
さらに,複雑性と細部が異なるMG-Verilogデータセットの可能性を完全に活用するために,バランスの取れた微調整方式を導入する。
このスキームは、データセットが提供するさまざまな詳細レベルを活用するためのユニークなユースケースとして機能する。
大規模な実験により,提案したデータセットと微調整方式はハードウェア設計タスクにおけるLCMの性能を一貫して改善することが示された。
関連論文リスト
- The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMの性能向上には,大規模かつ高品質なデータが寄与する一方,MLLMはデータの開発を促進することができる。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Demystifying Platform Requirements for Diverse LLM Inference Use Cases [7.233203254714951]
本稿では,大規模言語モデル推論性能とプラットフォーム設計パラメータの関係を明らかにするための分析ツールGenZを提案する。
LLaMA や GPT-4 のような SOTA LLM モデルをサポートするためのプラットフォーム要件を,多様なサービス設定下で定量化する。
結局のところ、この研究は、幅広いアプリケーションにまたがる大きな言語モデルの潜在能力を最大限に活用するためのプラットフォーム設計の考察に光を当てている。
論文 参考訳(メタデータ) (2024-06-03T18:00:50Z) - A Blueprint Architecture of Compound AI Systems for Enterprise [18.109450556443782]
我々は、企業環境で運用する複合AIシステムのための青写真アーキテクチャを、費用対効果と実用性で導入する。
提案したアーキテクチャは,既存の計算とデータインフラストラクチャとのシームレスな統合を目標としています。
論文 参考訳(メタデータ) (2024-06-02T01:16:32Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - LLM4SecHW: Leveraging Domain Specific Large Language Model for Hardware
Debugging [4.297043877989406]
本稿では,ドメイン固有大言語モデル(LLM)を利用したハードウェアデバッグのための新しいフレームワークを提案する。
我々は、オープンソースのハードウェア設計欠陥のデータセットとその修正手順をコンパイルするためのユニークなアプローチを提案する。
LLM4SecHWは、このデータセットに基づいて中規模のLCMを微調整し、ハードウェア設計におけるバグの特定と修正を可能にする。
論文 参考訳(メタデータ) (2024-01-28T19:45:25Z) - LLMs with User-defined Prompts as Generic Data Operators for Reliable
Data Processing [13.901862478287509]
汎用データ演算子(LLM-GDO)として機能する大規模言語モデル(LLM)を提案する。
LLM-GDO設計パターンでは、ユーザ定義プロンプト(UDP)は特定のプログラミング言語の実装ではなく、データ処理ロジックを表現するために使われる。
ドメイン固有のデータによる微調整 LLM は、データ処理の知識を意識するドメイン固有のタスクの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-26T23:08:38Z) - EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized
and Reproducible ML for EDA Research [5.093676641214663]
我々はEDALearnを紹介した。EDALearnは、EDAの機械学習タスクに特化した、最初の包括的なオープンソースベンチマークスイートである。
このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。
私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。
論文 参考訳(メタデータ) (2023-12-04T06:51:46Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。