論文の概要: A Generalizable Framework for Building Executable Domain-Specific LLMs under Data Scarcity: Demonstration on Semiconductor TCAD Simulation
- arxiv url: http://arxiv.org/abs/2601.10128v1
- Date: Thu, 15 Jan 2026 07:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.028855
- Title: A Generalizable Framework for Building Executable Domain-Specific LLMs under Data Scarcity: Demonstration on Semiconductor TCAD Simulation
- Title(参考訳): データスカシティ下における実行可能なドメイン特化LDM構築のための一般化可能なフレームワーク:半導体TCADシミュレーションの実証
- Authors: Di Wang, Zhenhua Wu, Yu Liu, Kai Chang, Shaohua Wu,
- Abstract要約: 低リソース環境下でコンパクトで実行可能なドメイン固有LLMを構築するためのフレームワークを提案する。
半導体コンピュータ支援設計(TCAD)のためのTcadGPTのインスタンス化によるフレームワークの実証
1.5Mの合成QAペアとIR駆動のDPOデータセットを使用して、TcadGPTはSDE実行可能性テストにおいて85.6%のセマンティック精度と80.0%の構文パスレートを達成した。
- 参考スコア(独自算出の注目度): 20.174394305112198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific and engineering verticals often suffer from data scarcity and strict executability requirements: models must generate not only fluent text, but also syntactically valid, tool-compilable scripts. We present a schema-first alignment framework for building compact, executable domain-specific LLMs in low-resource settings. The framework integrates three core components: (i) large-scale synthetic QA data generation from expert documentation to instill foundational domain knowledge; (ii) a code-centric IR->DPO workflow that converts verified tool decks into interpretable intermediate representations (IR), performs equivalence-preserving diversification, and constructs preference pairs to directly optimize instruction compliance and code executability; and (iii) a controlled evaluation of Retrieval-Augmented Generation (RAG), showing that while RAG benefits general LLMs, it can marginally degrade the performance of already domain-aligned models. We demonstrate the framework by instantiating TcadGPT for semiconductor Technology Computer-Aided Design (TCAD). Using 1.5M synthetic QA pairs and an IR-driven DPO dataset, TcadGPT attains 85.6% semantic accuracy and an 80.0% syntax pass rate on SDE executability tests, substantially outperforming state-of-the-art general LLMs such as GPT-4o. To probe portability beyond TCAD, we apply the same recipe to the open-source FEM solver Elmer, observing consistent improvements in script-level success rates over general-purpose baselines. All datasets, benchmarks, and code (including P1, P2, and IR->DPO) are released for reproducibility. Together, these results suggest that the proposed framework provides a robust and reproducible path toward executable LLMs in specialized, data-scarce professional domains.
- Abstract(参考訳): 科学と工学の分野は、しばしばデータの不足と厳格な実行性要件に悩まされる: モデルは、流動的なテキストだけでなく、構文的に有効なツールコンパイル可能なスクリプトを生成する必要がある。
低リソース環境でコンパクトで実行可能なドメイン固有LLMを構築するためのスキーマファーストアライメントフレームワークを提案する。
このフレームワークは3つのコアコンポーネントを統合している。
一 専門文献からの大規模合成QAデータ生成により基礎ドメイン知識を授けること。
i) 検証済みツールデッキを解釈可能な中間表現(IR)に変換するコード中心のIR->DPOワークフロー。
3)RAGの制御により,RAGは一般LLMの恩恵を受けるが,既に整列したモデルの性能を極端に低下させることができることを示す。
本稿では,半導体コンピュータ支援設計(TCAD)のためのTcadGPTのインスタンス化によるフレームワークの実証を行う。
1.5Mの合成QAペアとIR駆動のDPOデータセットを使用して、TcadGPTは、SDE実行可能性テストにおいて85.6%のセマンティック精度と80.0%の構文パスレートを達成し、GPT-4oのような最先端の汎用LLMを大幅に上回っている。
TCADを超えてポータビリティを探索するため、オープンソースのFEMソルバElmerに同じレシピを適用し、汎用ベースラインよりもスクリプトレベルの成功率が一貫した改善を観察する。
すべてのデータセット、ベンチマーク、コード(P1、P2、IR->DPOを含む)は再現性のためにリリースされている。
これらの結果から,本フレームワークは,専門分野の専門分野において,実行可能LLMへの堅牢かつ再現可能なパスを提供する可能性が示唆された。
関連論文リスト
- Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Zero-shot 3D Map Generation with LLM Agents: A Dual-Agent Architecture for Procedural Content Generation [8.398818816613806]
ゼロショットPCGパラメータ設定にLLMエージェントを利用する学習自由アーキテクチャを提案する。
我々のシステムはアクターエージェントとCriticエージェントをペアリングし、ツールパラメータを自律的に理由づける反復ワークフローを可能にする。
論文 参考訳(メタデータ) (2025-12-11T10:22:02Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - LM4Opt-RA: A Multi-Candidate LLM Framework with Structured Ranking for Automating Network Resource Allocation [0.7933039558471408]
我々は,複雑な解析的および数学的推論タスクに,文脈的理解が不要であることに対処する。
既存のベンチマークデータセットは、動的な環境、変数、不均一な制約でそのような問題の複雑さに対処できない。
NL4RAは、LP、ILP、MILPとして定式化された50のリソース割り当て最適化問題からなるキュレートデータセットである。
次に,パラメータ数が異なるオープンソースのLLMの性能評価を行った。
論文 参考訳(メタデータ) (2025-11-13T23:19:43Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - SAFT: Structure-Aware Fine-Tuning of LLMs for AMR-to-Text Generation [50.277959544420455]
SAFTは、事前訓練された言語モデルにグラフトポロジーを注入する構造対応の微調整手法である。
変換されたAMRの磁気ラプラシアンから方向感応的な位置エンコーディングを計算する。
SAFTはAMR 3.0に新しい最先端を設定、ベースラインを3.5BLEU改善した。
論文 参考訳(メタデータ) (2025-07-15T18:12:57Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。
オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。
以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-03-31T07:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。