Fugu-MT 論文翻訳(概要): Hardware Phi-1.5B: A Large Language Model Encodes Hardware Domain Specific Knowledge

論文の概要: Hardware Phi-1.5B: A Large Language Model Encodes Hardware Domain Specific Knowledge

arxiv url: http://arxiv.org/abs/2402.01728v1
Date: Sat, 27 Jan 2024 22:49:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-11 16:16:49.767500
Title: Hardware Phi-1.5B: A Large Language Model Encodes Hardware Domain Specific Knowledge
Title（参考訳）: ハードウェアphi-1.5b: ハードウェアドメイン固有の知識をエンコードする大規模言語モデル
Authors: Weimin Fu, Shijie Li, Yifang Zhao, Haocheng Ma, Raj Dutta, Xuan Zhang, Kaichen Yang, Yier Jin, Xiaolong Guo
Abstract要約: 本稿では,半導体産業のハードウェア分野に特化した,革新的な大規模言語モデルであるHardware Phi 1.5Bを紹介する。我々は,小,中,大サブセットからなる専門的,結合されたデータセットを開発し,メディアデータセットを用いた事前学習に重点を置いている。この事前訓練されたハードウェアドメイン固有の大規模言語モデルの作成は、ハードウェア設計と検証タスクのパフォーマンスを向上する上で、大きな進歩を見せている。
参考スコア（独自算出の注目度）: 13.381963988168755
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In the rapidly evolving semiconductor industry, where research, design, verification, and manufacturing are intricately linked, the potential of Large Language Models to revolutionize hardware design and security verification is immense. The primary challenge, however, lies in the complexity of hardware specific issues that are not adequately addressed by the natural language or software code knowledge typically acquired during the pretraining stage. Additionally, the scarcity of datasets specific to the hardware domain poses a significant hurdle in developing a foundational model. Addressing these challenges, this paper introduces Hardware Phi 1.5B, an innovative large language model specifically tailored for the hardware domain of the semiconductor industry. We have developed a specialized, tiered dataset comprising small, medium, and large subsets and focused our efforts on pretraining using the medium dataset. This approach harnesses the compact yet efficient architecture of the Phi 1.5B model. The creation of this first pretrained, hardware domain specific large language model marks a significant advancement, offering improved performance in hardware design and verification tasks and illustrating a promising path forward for AI applications in the semiconductor sector.
Abstract（参考訳）: 研究開発、設計、検証、製造が複雑に結びついている急速に発展する半導体産業では、ハードウェア設計とセキュリティ検証に革命を起こす大きな言語モデルの可能性は非常に大きい。しかし、最大の課題は、訓練前の段階で一般的に取得される自然言語やソフトウェアコード知識によって適切に対処されないハードウェア固有の問題の複雑さにある。さらに、ハードウェアドメイン固有のデータセットの不足は、基礎モデルを開発する上で大きなハードルとなる。本稿では,半導体産業のハードウェア分野に特化した革新的な大規模言語モデルであるハードウェアphi 1.5bを紹介する。我々は,小,中,大サブセットからなる専門的,結合されたデータセットを開発し,メディアデータセットを用いた事前学習に重点を置いている。このアプローチはPhi 1.5Bモデルのコンパクトだが効率的なアーキテクチャを利用する。この最初の事前学習されたハードウェアドメイン特化大型言語モデルの作成は、ハードウェア設計と検証タスクのパフォーマンス向上と、半導体分野におけるaiアプリケーションへの有望な進路を示す、大きな進歩を示している。

関連論文リスト

Hey AI, Generate Me a Hardware Code! Agentic AI-based Hardware Design & Verification [2.8236458753814233]
本稿では,エージェントAIを用いたハードウェア設計検証手法を提案する。エージェントAIベースのアプローチは、Humain-in-the-Loop(HITL)介入と連携して、よりダイナミックで反復的で自己反映的なプロセスに従事するAIエージェントに権限を与える。この手法は5つのオープンソース設計で評価され、95%以上のカバレッジを達成し、検証時間を短縮する。
論文参考訳（メタデータ） (2025-07-03T14:20:57Z)
Machine-Learning-Assisted Photonic Device Development: A Multiscale Approach from Theory to Characterization [80.82828320306464]
フォトニックデバイス開発(PDD)は、様々な波長、スケール、アプリケーションにまたがる光を制御する新しいデバイスの設計と実装において大きな成功を収めた。 PDDは、設計パラメータからデバイス動作を導出する、デバイス性能をシミュレーションする、最適なデバイスを製造する、デバイス性能を測定する、という5段階の反復的プロセスである。 PDDは、大規模な最適化の展望、構造的または光学的特徴の不確実性、堅牢な製造プロセスの実装の困難に悩まされている。本稿では,機械学習支援型PDDの実現に向けて,これらの手法の総合的な展望を示す。
論文参考訳（メタデータ） (2025-06-24T23:32:54Z)
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures [16.588680547813485]
2,048 NVIDIA H800 GPUでトレーニングされたDeepSeek-V3は、ハードウェア対応モデルの共同設計がAIの課題にどのように対処できるかをデモしている。本稿では,DeepSeek-V3/R1モデルアーキテクチャとそのAIインフラストラクチャを詳細に分析する。 DeepSeek-V3の開発中に発生するハードウェアボトルネックに基づいて、将来的なハードウェアの方向性について議論する。
論文参考訳（メタデータ） (2025-05-14T12:39:03Z)
Hardware Design and Security Needs Attention: From Survey to Path Forward [8.165279651848923]
注目に基づく人工知能(AI)モデルの最近の進歩は、デジタルハードウェア設計を自動化する大きな可能性を解き放っている。本研究では,ハードウェア設計とセキュリティの自動化に向けた技術的ハードルと今後の展望を明らかにする。
論文参考訳（メタデータ） (2025-04-11T03:48:57Z)
RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文参考訳（メタデータ） (2024-11-19T09:35:28Z)
A Survey: Collaborative Hardware and Software Design in the Era of Large Language Models [16.250856588632637]
大規模言語モデル(LLM)の急速な発展は、人工知能の分野を大きく変えた。これらのモデルは多様なアプリケーションに統合され、研究と産業の両方に影響を及ぼす。本稿では,大規模言語モデルの特徴と制約に対処するために,ハードウェアとソフトウェアの共同設計手法について検討する。
論文参考訳（メタデータ） (2024-10-08T21:46:52Z)
CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation [49.19402798479942]
マルチモーダル学習は人工知能の重要な研究領域になっています知的エージェントにとって、国家は画像、ビデオ、言語といった一般的なモダリティと共に正確な情報を伝達する重要なモダリティである。本稿では,状態情報を汎用表現に正確にエンコードできる高忠実コントラスト言語-状態事前学習法を提案する。
論文参考訳（メタデータ） (2024-09-24T07:08:00Z)
Enhancing Large Language Models with Domain-Specific Knowledge: The Case in Topological Materials [4.654635844923322]
大規模言語モデル (LLM) はテキスト生成タスクにおいて顕著な性能を示した。 TopoChatと呼ばれるトポロジカル材料のための対話システムを開発した。 TopoChatは、構造およびプロパティクエリ、マテリアルレコメンデーション、複雑なリレーショナル推論において優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-09-10T06:01:16Z)
A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。 SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文参考訳（メタデータ） (2024-07-08T22:40:15Z)
MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation [16.836658183451764]
大規模言語モデル(LLM)は、ドメイン固有の膨大なデータをカプセル化することによって、ハードウェア設計プロセスの合理化を約束している。既存の利用可能なハードウェアデータセットは、サイズ、複雑さ、詳細に制限されることが多い。本稿では,多段階の詳細な記述と対応するコードサンプルを包含したMulti-Grained-Verilog(MG-Verilog)データセットを提案する。
論文参考訳（メタデータ） (2024-07-02T03:21:24Z)
Zero-Shot RTL Code Generation with Attention Sink Augmented Large Language Models [0.0]
本稿では,大規模言語モデルを利用したハードウェア設計におけるコード生成プロセスの合理化の可能性について論じる。 RTLコード生成で大きな言語モデルを使用する能力は、設計サイクルを高速化するだけでなく、設計空間の探索を促進する。
論文参考訳（メタデータ） (2024-01-12T17:41:38Z)
LLM4EDA: Emerging Progress in Large Language Models for Electronic Design Automation [74.7163199054881]
大規模言語モデル(LLM)は、文脈理解、論理推論、回答生成においてその能力を実証している。本稿では,EDA分野におけるLLMの応用に関する系統的研究を行う。論理合成,物理設計,マルチモーダル特徴抽出,回路のアライメントにLLMを適用することに焦点を当て,今後の研究の方向性を強調した。
論文参考訳（メタデータ） (2023-12-28T15:09:14Z)
Embedded Software Development with Digital Twins: Specific Requirements for Small and Medium-Sized Enterprises [55.57032418885258]
デジタル双生児は、コスト効率の良いソフトウェア開発とメンテナンス戦略の可能性を秘めている。私たちは中小企業に現在の開発プロセスについてインタビューした。最初の結果は、リアルタイムの要求が、これまでは、Software-in-the-Loop開発アプローチを妨げていることを示している。
論文参考訳（メタデータ） (2023-09-17T08:56:36Z)
ISyNet: Convolutional Neural Networks design for AI accelerator [0.0]
現在の最先端アーキテクチャは、モデル複雑さを考慮して、ニューラルアーキテクチャサーチ(NAS)によって発見されている。本稿では,ニューラルネットワーク探索空間のハードウェア効率の指標として,行列効率測定(MEM),ハードウェア効率の高い演算からなる探索空間,レイテンシを考慮したスケーリング手法を提案する。我々は、ImageNet上のNPUデバイスの設計アーキテクチャと、下流の分類および検出タスクの一般化能力の利点を示す。
論文参考訳（メタデータ） (2021-09-04T20:57:05Z)
Knowledge Distillation: A Survey [87.51063304509067]
ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
論文参考訳（メタデータ） (2020-06-09T21:47:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。