論文の概要: SemiKong: Curating, Training, and Evaluating A Semiconductor Industry-Specific Large Language Model
- arxiv url: http://arxiv.org/abs/2411.13802v1
- Date: Thu, 21 Nov 2024 03:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:38.907877
- Title: SemiKong: Curating, Training, and Evaluating A Semiconductor Industry-Specific Large Language Model
- Title(参考訳): SemiKong:半導体産業に特有な大規模言語モデルの構築、訓練、評価
- Authors: Christopher Nguyen, William Nguyen, Atsushi Suzuki, Daisuke Oku, Hong An Phan, Sang Dinh, Zooey Nguyen, Anh Ha, Shruti Raghavan, Huy Vo, Thang Nguyen, Lan Nguyen, Yoshikuni Hirayama,
- Abstract要約: 大型言語モデル (LLM) は半導体業界におけるいくつかの問題に対処する可能性を実証している。
それらはしばしば汎用的なモデルであり、この分野の独特な課題に取り組むのに必要な専門知識を欠いている。
SemiKongは、カスタマイズされたプロプライエタリなモデルを開発するために使用できる基盤を提供する。
- 参考スコア(独自算出の注目度): 3.975091822125567
- License:
- Abstract: Large Language Models (LLMs) have demonstrated the potential to address some issues within the semiconductor industry. However, they are often general-purpose models that lack the specialized knowledge needed to tackle the unique challenges of this sector, such as the intricate physics and chemistry of semiconductor devices and processes. SemiKong, the first industry-specific LLM for the semiconductor domain, provides a foundation that can be used to develop tailored proprietary models. With SemiKong 1.0, we aim to develop a foundational model capable of understanding etching problems at an expert level. Our key contributions include (a) curating a comprehensive corpus of semiconductor-related texts, (b) creating a foundational model with in-depth semiconductor knowledge, and (c) introducing a framework for integrating expert knowledge, thereby advancing the evaluation process of domain-specific AI models. Through fine-tuning a pre-trained LLM using our curated dataset, we have shown that SemiKong outperforms larger, general-purpose LLMs in various semiconductor manufacturing and design tasks. Our extensive experiments underscore the importance of developing domain-specific LLMs as a foundation for company- or tool-specific proprietary models, paving the way for further research and applications in the semiconductor domain. Code and dataset will be available at https://github.com/aitomatic/semikong
- Abstract(参考訳): 大型言語モデル (LLM) は半導体業界におけるいくつかの問題に対処する可能性を実証している。
しかし、それらはしばしば、半導体デバイスやプロセスの複雑な物理や化学のようなこの分野の独特な課題に取り組むのに必要な専門知識を欠く汎用モデルである。
半導体分野における最初の業界固有のLCMであるSemiKongは、カスタマイズされたプロプライエタリモデルの開発に使用できる基盤を提供する。
SemiKong 1.0では,専門家レベルでのエッチング問題を理解可能な基礎モデルの開発を目標としている。
主な貢献は
(a)半導体関連テキストの包括的コーパスをキュレートすること
(b)深い半導体知識を持つ基礎モデルの作成、及び
(c)専門知識を統合するためのフレームワークを導入し、ドメイン固有のAIモデルの評価プロセスを前進させる。
計算したデータセットを用いて事前学習LLMを微調整することにより,半導体製造および設計タスクにおいて,SemiKongはより大きな汎用LLMよりも優れた性能を示すことを示す。
我々の広範な実験は、企業またはツール固有のプロプライエタリモデルの基礎として、ドメイン固有のLCMを開発することの重要性を強調し、半導体領域におけるさらなる研究と応用の道を開いた。
コードとデータセットはhttps://github.com/aitomatic/semikongで入手できる。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Parameter-Efficient Quantized Mixture-of-Experts Meets Vision-Language Instruction Tuning for Semiconductor Electron Micrograph Analysis [0.0]
半導体製造に適した小型ビジョン言語アシスタントであるsLAVAを紹介する。
データ不足の課題に対処し、高品質のエキスパートアノテートされたデータを取得する。
論文 参考訳(メタデータ) (2024-08-27T15:59:26Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized
and Reproducible ML for EDA Research [5.093676641214663]
我々はEDALearnを紹介した。EDALearnは、EDAの機械学習タスクに特化した、最初の包括的なオープンソースベンチマークスイートである。
このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。
私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。
論文 参考訳(メタデータ) (2023-12-04T06:51:46Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - LUNA: A Model-Based Universal Analysis Framework for Large Language Models [19.033382204019667]
自己保持機構, 極めて大規模なモデルスケール, 自己回帰生成スキーマは, 品質解析における新たな課題を提示する。
汎用かつ解釈可能なLLMの普遍的解析フレームワークを提案する。
特に、私たちはまず、望ましい信頼性の観点からのデータを活用して抽象モデルを構築します。
論文 参考訳(メタデータ) (2023-10-22T07:26:21Z) - Generating Hidden Markov Models from Process Models Through Nonnegative Tensor Factorization [0.0]
我々は,理論的プロセスモデルと関連する最小隠れマルコフモデルを統合する,数学的に新しい手法を提案する。
提案手法は, (a) 理論的プロセスモデル, (b) HMM, (c) 結合非負行列テンソル因子分解, (d) カスタムモデル選択を集約する。
論文 参考訳(メタデータ) (2022-10-03T16:19:27Z) - Improving Semiconductor Device Modeling for Electronic Design Automation
by Machine Learning Techniques [6.170514965470266]
本稿では,変分オートエンコーダを用いたMLに基づくデバイスモデリング改善のための自己拡張戦略を提案する。
提案手法の有効性を実証するために,ガリウム窒化物デバイスにおけるオーミック抵抗値に対するディープニューラルネットワークに基づく予測タスクに適用する。
論文 参考訳(メタデータ) (2021-05-25T00:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。