論文の概要: ChipNeMo: Domain-Adapted LLMs for Chip Design
- arxiv url: http://arxiv.org/abs/2311.00176v4
- Date: Thu, 7 Mar 2024 01:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 17:35:47.175678
- Title: ChipNeMo: Domain-Adapted LLMs for Chip Design
- Title(参考訳): ChipNeMo: チップ設計のためのドメイン適応LDM
- Authors: Mingjie Liu, Teodor-Dumitru Ene, Robert Kirby, Chris Cheng, Nathaniel
Pinckney, Rongjian Liang, Jonah Alben, Himyanshu Anand, Sanmitra Banerjee,
Ismet Bayraktaroglu, Bonita Bhaskaran, Bryan Catanzaro, Arjun Chaudhuri,
Sharon Clay, Bill Dally, Laura Dang, Parikshit Deshpande, Siddhanth Dhodhi,
Sameer Halepete, Eric Hill, Jiashang Hu, Sumit Jain, Ankit Jindal, Brucek
Khailany, George Kokai, Kishor Kunal, Xiaowei Li, Charley Lind, Hao Liu,
Stuart Oberman, Sujeet Omar, Sreedhar Pratty, Jonathan Raiman, Ambar Sarkar,
Zhengjiang Shao, Hanfei Sun, Pratik P Suthar, Varun Tej, Walker Turner,
Kaizhe Xu, Haoxing Ren
- Abstract要約: ChipNeMoは、産業用チップ設計のための大規模言語モデル(LLM)の応用を探求することを目的としている。
ドメイン適応型トークン化、ドメイン適応型継続事前トレーニング、ドメイン固有命令とのモデルアライメント、ドメイン適応型検索モデルを採用する。
- 参考スコア(独自算出の注目度): 19.55341531799548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ChipNeMo aims to explore the applications of large language models (LLMs) for
industrial chip design. Instead of directly deploying off-the-shelf commercial
or open-source LLMs, we instead adopt the following domain adaptation
techniques: domain-adaptive tokenization, domain-adaptive continued
pretraining, model alignment with domain-specific instructions, and
domain-adapted retrieval models. We evaluate these methods on three selected
LLM applications for chip design: an engineering assistant chatbot, EDA script
generation, and bug summarization and analysis. Our evaluations demonstrate
that domain-adaptive pretraining of language models, can lead to superior
performance in domain related downstream tasks compared to their base LLaMA2
counterparts, without degradations in generic capabilities. In particular, our
largest model, ChipNeMo-70B, outperforms the highly capable GPT-4 on two of our
use cases, namely engineering assistant chatbot and EDA scripts generation,
while exhibiting competitive performance on bug summarization and analysis.
These results underscore the potential of domain-specific customization for
enhancing the effectiveness of large language models in specialized
applications.
- Abstract(参考訳): ChipNeMoは、産業用チップ設計のための大規模言語モデル(LLM)の適用を探求することを目的としている。
ドメイン適応型トークン化(Domain-adaptive tokenization)、ドメイン適応型継続事前トレーニング(Domain-adaptive continued pretraining)、ドメイン固有命令とのモデルアライメント、ドメイン適応型検索モデルなどです。
チップ設計のための3つのLLMアプリケーション(エンジニアリングアシスタントチャットボット、EDAスクリプト生成、バグ要約と解析)でこれらの手法を評価する。
評価の結果,言語モデルのドメイン適応型事前学習は,汎用能力の低下を伴わずに,ベースとなるLLaMA2に比べて,ドメイン関連下流タスクの性能が向上することが示された。
特に、私たちの最大のモデルであるChipNeMo-70Bは、エンジニアリングアシスタントチャットボットとEDAスクリプト生成という2つのユースケースにおいて、高い能力を持つGPT-4よりも優れています。
これらの結果は、特殊アプリケーションにおける大規模言語モデルの有効性を高めるためのドメイン固有のカスタマイズの可能性を強調している。
関連論文リスト
- BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of
LLMs [51.17542331993448]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - A Self-enhancement Approach for Domain-specific Chatbot Training via
Knowledge Mining and Digest [62.63606958140248]
大規模言語モデル(LLM)は、特定のドメインで複雑な知識要求クエリを扱う際に、しばしば困難に直面する。
本稿では、ドメイン固有のテキストソースから関連知識を効果的に抽出し、LLMを強化する新しいアプローチを提案する。
我々は知識マイナー、すなわちLLMinerを訓練し、関連する文書から質問応答対を自律的に抽出する。
論文 参考訳(メタデータ) (2023-11-17T16:09:10Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - On the Domain Adaptation and Generalization of Pretrained Language
Models: A Survey [15.533482481757353]
機械学習システムの観点から,ドメイン適応アプローチの分類法を提案する。
我々はこれらの手法を議論し、比較し、将来有望な研究方向性を提案する。
論文 参考訳(メタデータ) (2022-11-06T15:32:00Z) - Adapt-and-Distill: Developing Small, Fast and Effective Pretrained
Language Models for Domains [45.07506437436464]
本稿では、特定のドメインに対して、小型で高速かつ効果的に事前訓練されたモデルを開発するための一般的なアプローチを提案する。
これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
論文 参考訳(メタデータ) (2021-06-25T07:37:05Z) - Continual Domain-Tuning for Pretrained Language Models [8.080145221992641]
シンプルなドメインチューニング(SDT)はBioBERT, SciBERT, ClinicalBERTといったドメインチューニングモデルの作成に広く利用されている。
対象ドメインの事前学習フェーズにおいて、LMモデルは、そのソースドメインから学んだパターンを破滅的に忘れてしまう可能性がある。
SDTに対する継続学習(CL)に基づく代替手法を提案する。
論文 参考訳(メタデータ) (2020-04-05T19:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。