論文の概要: iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation
- arxiv url: http://arxiv.org/abs/2603.04476v1
- Date: Wed, 04 Mar 2026 15:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.914165
- Title: iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation
- Title(参考訳): iScript: ドメイン適応型大規模言語モデルと物理設計Tclスクリプト生成のためのベンチマーク
- Authors: Ning Xu, Zhaoyang Zhang, Senlin Shu, Lei Qi, Jiaqi Lv, Wensuo Wang, Tianhao Zhao, Chao Zhang, Zhaoliang Yang, Xiangyu Li, Zhaorui Su, Jingshan Li, Xin Geng,
- Abstract要約: iScriptは、Innovus Tclスクリプト生成のためのドメイン適応Qwen3-8Bモデルである。
iScriptのパス@kスコアは、現在最先端のLLMよりも高い。
- 参考スコア(独自算出の注目度): 48.502477318243386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern EDA flows rely heavily on Tcl scripting, yet general LLMs perform poorly in this domain due to extreme data scarcity, domain-specific semantics, and the high reliability required in physical design. We present iScript, a domain-adapted Qwen3-8B model for Innovus Tcl script generation, and iScript-Bench, a comprehensive benchmark covering five task categories and three difficulty levels. To overcome the lack of training data, we introduce a multi-stage data synthesis pipeline that integrates command extraction, static linting, requirement back-inference, and Chain-of-Thought generation, producing a 10K-tuple (requirement, CoT, script) dataset. iScript is trained through a two-stage strategy combining domain-adaptive pretraining and supervised fine-tuning. To evaluate script correctness efficiently, we further propose a two-step verification framework consisting of static syntax verification and LLM-based functional evaluation. On our benchmark, iScript shows higher pass@k scores than currently state-of-the-art LLMs on average. These results demonstrate the effectiveness of domain adaptation and data synthesis for EDA scripting tasks.
- Abstract(参考訳): 現代のEDAフローはTclスクリプティングに大きく依存しているが、データ不足、ドメイン固有のセマンティクス、物理的設計に必要な高い信頼性のために、一般的なLCMは、この領域では不十分である。
Innovus Tclスクリプト生成のためのドメイン適応Qwen3-8BモデルであるiScriptと,5つのタスクカテゴリと3つの困難レベルをカバーする包括的なベンチマークであるiScript-Benchを紹介する。
トレーニングデータの不足を克服するため、コマンド抽出、静的リンティング、要求バック推論、Chain-of-Thought生成を統合し、10Kタプル(要求、CoT、スクリプト)データセットを生成するマルチステージデータ合成パイプラインを導入しました。
iScriptはドメイン適応型事前トレーニングと教師付き微調整を組み合わせた2段階の戦略でトレーニングされている。
さらに,スクリプトの正確性を評価するために,静的構文検証とLLMに基づく機能評価からなる2段階の検証フレームワークを提案する。
ベンチマークでは、iScriptのパス@kスコアは、現在最先端のLCMよりも高い。
これらの結果は,EDAスクリプティングタスクにおける領域適応とデータ合成の有効性を示す。
関連論文リスト
- ARISE -- Adaptive Refinement and Iterative Scenario Engineering [6.001986980495572]
ARISE - Adaptive Refinement and Iterative Scenario Engineeringを紹介する。
自然言語のプロンプトをScenicスクリプトに変換する。
ARISEはセマンティックに正確で実行可能なトラフィックシナリオを生成する上で、ベースラインよりも優れています。
論文 参考訳(メタデータ) (2026-01-21T07:57:24Z) - TIT: A Tree-Structured Instruction Tuning Approach for LLM-Based Code Translation [11.882496324328905]
LLMに基づくコード翻訳のためのツリー構造化命令チューニングパラダイムであるTITを提案する。
構文的混乱を軽減するため、構文的情報表現モジュールは言語に依存しない構文的特徴を統合する。
高品質の粒度並列データを生成するために、細粒度並列データセット拡張モジュールは、ノードとコードセグメントを整列する。
論文 参考訳(メタデータ) (2025-10-10T13:53:46Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association [83.4879773429742]
本稿では,E-Commerce Script Planning(EcomScript)の課題を3つの逐次サブタスクとして定義する。
本稿では,各ステップに製品を関連付けることで,拡張性のある製品リッチスクリプトの生成を可能にする新しいフレームワークを提案する。
最初の大規模なEcomScriptデータセットであるEcomScriptBenchを構築しました。
論文 参考訳(メタデータ) (2025-05-21T07:21:38Z) - DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [10.712756715779822]
大規模言語モデル(LLM)は、データ処理において有望であることを示している。
これらのフレームワークは、ユーザが指定した操作を実行する際のコスト削減に重点を置いている。
これは複雑なタスクやデータに問題があります。
本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
論文 参考訳(メタデータ) (2024-10-16T03:22:35Z) - ScriptSmith: A Unified LLM Framework for Enhancing IT Operations via Automated Bash Script Generation, Assessment, and Refinement [3.685819758139424]
本稿では,大規模言語モデル(LLM)を用いて,スクリプト生成,評価,改良のためのアクション自動化の革新的アプローチを提案する。
実験では、SREで一般的に使用されるツールであるBashスクリプトにフォーカスし、100タスクのCodeSiftデータセットと153タスクのInterCodeデータセットを含む。
結果は、このフレームワークがスクリプト生成において7~10%の全体的な改善を示していることを示している。
論文 参考訳(メタデータ) (2024-09-12T15:11:43Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - proScript: Partially Ordered Scripts Generation via Pre-trained Language
Models [49.03193243699244]
我々は、トレーニング済みのニューラルネットワークモデル(LM)が高品質なスクリプトを生成するために微調整できることを初めて実証した。
クラウドソースされた部分的に順序付けられたスクリプト(proScriptという名前)を収集しました。
私たちの実験では、これまでのスクリプトコレクションの障壁を克服するための新しいアプローチを示す(例えば、タスク(i)中のf1=75.7)。
論文 参考訳(メタデータ) (2021-04-16T17:35:10Z) - Conversational Question Reformulation via Sequence-to-Sequence
Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。
我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。
我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文 参考訳(メタデータ) (2020-04-04T11:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。