論文の概要: Hardware Phi-1.5B: A Large Language Model Encodes Hardware Domain
Specific Knowledge
- arxiv url: http://arxiv.org/abs/2402.01728v1
- Date: Sat, 27 Jan 2024 22:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:16:49.767500
- Title: Hardware Phi-1.5B: A Large Language Model Encodes Hardware Domain
Specific Knowledge
- Title(参考訳): ハードウェアphi-1.5b: ハードウェアドメイン固有の知識をエンコードする大規模言語モデル
- Authors: Weimin Fu, Shijie Li, Yifang Zhao, Haocheng Ma, Raj Dutta, Xuan Zhang,
Kaichen Yang, Yier Jin, Xiaolong Guo
- Abstract要約: 本稿では,半導体産業のハードウェア分野に特化した,革新的な大規模言語モデルであるHardware Phi 1.5Bを紹介する。
我々は,小,中,大サブセットからなる専門的,結合されたデータセットを開発し,メディアデータセットを用いた事前学習に重点を置いている。
この事前訓練されたハードウェアドメイン固有の大規模言語モデルの作成は、ハードウェア設計と検証タスクのパフォーマンスを向上する上で、大きな進歩を見せている。
- 参考スコア(独自算出の注目度): 13.381963988168755
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the rapidly evolving semiconductor industry, where research, design,
verification, and manufacturing are intricately linked, the potential of Large
Language Models to revolutionize hardware design and security verification is
immense. The primary challenge, however, lies in the complexity of hardware
specific issues that are not adequately addressed by the natural language or
software code knowledge typically acquired during the pretraining stage.
Additionally, the scarcity of datasets specific to the hardware domain poses a
significant hurdle in developing a foundational model. Addressing these
challenges, this paper introduces Hardware Phi 1.5B, an innovative large
language model specifically tailored for the hardware domain of the
semiconductor industry. We have developed a specialized, tiered dataset
comprising small, medium, and large subsets and focused our efforts on
pretraining using the medium dataset. This approach harnesses the compact yet
efficient architecture of the Phi 1.5B model. The creation of this first
pretrained, hardware domain specific large language model marks a significant
advancement, offering improved performance in hardware design and verification
tasks and illustrating a promising path forward for AI applications in the
semiconductor sector.
- Abstract(参考訳): 研究開発、設計、検証、製造が複雑に結びついている急速に発展する半導体産業では、ハードウェア設計とセキュリティ検証に革命を起こす大きな言語モデルの可能性は非常に大きい。
しかし、最大の課題は、訓練前の段階で一般的に取得される自然言語やソフトウェアコード知識によって適切に対処されないハードウェア固有の問題の複雑さにある。
さらに、ハードウェアドメイン固有のデータセットの不足は、基礎モデルを開発する上で大きなハードルとなる。
本稿では,半導体産業のハードウェア分野に特化した革新的な大規模言語モデルであるハードウェアphi 1.5bを紹介する。
我々は,小,中,大サブセットからなる専門的,結合されたデータセットを開発し,メディアデータセットを用いた事前学習に重点を置いている。
このアプローチはPhi 1.5Bモデルのコンパクトだが効率的なアーキテクチャを利用する。
この最初の事前学習されたハードウェアドメイン特化大型言語モデルの作成は、ハードウェア設計と検証タスクのパフォーマンス向上と、半導体分野におけるaiアプリケーションへの有望な進路を示す、大きな進歩を示している。
関連論文リスト
- RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - A Survey: Collaborative Hardware and Software Design in the Era of Large Language Models [16.250856588632637]
大規模言語モデル(LLM)の急速な発展は、人工知能の分野を大きく変えた。
これらのモデルは多様なアプリケーションに統合され、研究と産業の両方に影響を及ぼす。
本稿では,大規模言語モデルの特徴と制約に対処するために,ハードウェアとソフトウェアの共同設計手法について検討する。
論文 参考訳(メタデータ) (2024-10-08T21:46:52Z) - CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation [49.19402798479942]
マルチモーダル学習は 人工知能の 重要な研究領域になっています
知的エージェントにとって、国家は画像、ビデオ、言語といった一般的なモダリティと共に正確な情報を伝達する重要なモダリティである。
本稿では,状態情報を汎用表現に正確にエンコードできる高忠実コントラスト言語-状態事前学習法を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:08:00Z) - A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation [16.836658183451764]
大規模言語モデル(LLM)は、ドメイン固有の膨大なデータをカプセル化することによって、ハードウェア設計プロセスの合理化を約束している。
既存の利用可能なハードウェアデータセットは、サイズ、複雑さ、詳細に制限されることが多い。
本稿では,多段階の詳細な記述と対応するコードサンプルを包含したMulti-Grained-Verilog(MG-Verilog)データセットを提案する。
論文 参考訳(メタデータ) (2024-07-02T03:21:24Z) - Zero-Shot RTL Code Generation with Attention Sink Augmented Large
Language Models [0.0]
本稿では,大規模言語モデルを利用したハードウェア設計におけるコード生成プロセスの合理化の可能性について論じる。
RTLコード生成で大きな言語モデルを使用する能力は、設計サイクルを高速化するだけでなく、設計空間の探索を促進する。
論文 参考訳(メタデータ) (2024-01-12T17:41:38Z) - LLM4EDA: Emerging Progress in Large Language Models for Electronic
Design Automation [74.7163199054881]
大規模言語モデル(LLM)は、文脈理解、論理推論、回答生成においてその能力を実証している。
本稿では,EDA分野におけるLLMの応用に関する系統的研究を行う。
論理合成,物理設計,マルチモーダル特徴抽出,回路のアライメントにLLMを適用することに焦点を当て,今後の研究の方向性を強調した。
論文 参考訳(メタデータ) (2023-12-28T15:09:14Z) - Embedded Software Development with Digital Twins: Specific Requirements
for Small and Medium-Sized Enterprises [55.57032418885258]
デジタル双生児は、コスト効率の良いソフトウェア開発とメンテナンス戦略の可能性を秘めている。
私たちは中小企業に現在の開発プロセスについてインタビューした。
最初の結果は、リアルタイムの要求が、これまでは、Software-in-the-Loop開発アプローチを妨げていることを示している。
論文 参考訳(メタデータ) (2023-09-17T08:56:36Z) - ISyNet: Convolutional Neural Networks design for AI accelerator [0.0]
現在の最先端アーキテクチャは、モデル複雑さを考慮して、ニューラルアーキテクチャサーチ(NAS)によって発見されている。
本稿では,ニューラルネットワーク探索空間のハードウェア効率の指標として,行列効率測定(MEM),ハードウェア効率の高い演算からなる探索空間,レイテンシを考慮したスケーリング手法を提案する。
我々は、ImageNet上のNPUデバイスの設計アーキテクチャと、下流の分類および検出タスクの一般化能力の利点を示す。
論文 参考訳(メタデータ) (2021-09-04T20:57:05Z) - Knowledge Distillation: A Survey [87.51063304509067]
ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。
リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。
知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
論文 参考訳(メタデータ) (2020-06-09T21:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。