論文の概要: Bridging the Sim-to-Real Gap in Semiconductor Visual Program Synthesis via Input Binarization
- arxiv url: http://arxiv.org/abs/2606.02434v1
- Date: Mon, 01 Jun 2026 16:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.485142
- Title: Bridging the Sim-to-Real Gap in Semiconductor Visual Program Synthesis via Input Binarization
- Title(参考訳): 入力二元化による半導体ビジュアルプログラム合成におけるSim-to-Realギャップのブリッジ化
- Authors: Yusuke Ohtsubo, Kota Dohi, Koichiro Yawata, Koki Takeshita, Tatsuya Sasaki,
- Abstract要約: 本稿では,視覚言語モデル(VLM)を用いて,検査画像を編集可能なドメイン特化言語(Domain-Specific Language)コードに変換するビジュアルプログラム合成フレームワークを提案する。
VLMは、合成DSLレンダリングデータのみに基づいて訓練されるため、実際の走査型電子顕微鏡(SEM)画像を処理する際にドメインギャップが発生する。
このギャップをSEM特有のテクスチャとノイズを排除し、モデルが幾何学的構造にフォーカスする入力バイナライズ戦略で橋渡しする。
- 参考スコア(独自算出の注目度): 4.275696286826178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise parametric control over circuit geometry is essential for semiconductor inspection, yet obtaining sufficient real training data remains costly. Although generative models such as diffusion models and Generative Adversarial Networks (GANs) can augment training data, they cannot guarantee the nanometer-scale geometric accuracy required for metrology tasks. We propose a visual program synthesis framework in which a Vision-Language Model (VLM) converts inspection images into editable Domain-Specific Language (DSL) code describing circuit geometries, enabling controlled generation of training data with exact parameter manipulation. Because the VLM is trained solely on synthetic DSL-rendered data, a domain gap arises when processing real Scanning Electron Microscope (SEM) images. We bridge this gap with an input binarization strategy that strips SEM-specific texture and noise, letting the model focus on geometric structure. On the MIIC dataset, binarized inputs improve the mean Dice coefficient from 0.4393 to 0.5256 over the raw-input baseline, demonstrating that simple texture abstraction substantially mitigates the sim-to-real gap.
- Abstract(参考訳): 回路形状の精密パラメトリック制御は半導体検査には不可欠であるが、十分な実データを得るにはコストがかかる。
拡散モデルやGAN(Generative Adversarial Networks)のような生成モデルは、トレーニングデータを増大させることができるが、メトロジータスクに必要なナノスケールの幾何精度を保証することはできない。
本稿では,視覚言語モデル(VLM)を用いて,検査画像から回路ジオメトリを記述するドメイン特化言語(DSL)コードに変換することで,正確なパラメータ操作によるトレーニングデータの制御を可能にするビジュアルプログラム合成フレームワークを提案する。
VLMは、合成DSLレンダリングデータのみに基づいて訓練されるため、実際の走査型電子顕微鏡(SEM)画像を処理する際にドメインギャップが発生する。
このギャップをSEM特有のテクスチャとノイズを排除し、モデルが幾何学的構造にフォーカスする入力バイナライズ戦略で橋渡しする。
MIICデータセットでは、二項化入力により、生入力ベースライン上での平均Dice係数が 0.4393 から 0.5256 に向上し、単純なテクスチャの抽象化がsim-to-realギャップを大幅に緩和することを示した。
関連論文リスト
- Buffer-Parameterized Machine Learning Surrogate Models for Cross-Technology Signal Integrity Analysis and Optimization [0.0]
プリント基板間の信号整合性(SI)解析は複雑化に直面している。
既存の機械学習(ML)サロゲートモデルによるSIメトリクスの予測は、固定バッファパラメータに依存する。
本稿では,バッファパラメータ化MLサロゲートモデリング手法を提案する。
論文 参考訳(メタデータ) (2026-05-18T10:12:57Z) - Physics Informed Generative AI Enabling Labour Free Segmentation For Microscopy Analysis [3.3176565054468714]
本稿では、シミュレーションと現実のギャップを埋めることのできる、労働自由化のための新しい枠組みを提案する。
我々は、不対向画像画像変換にCycleGAN(Cycle-Consistent Generative Adversarial Network)を用いる。
この合成データに特化して訓練されたU-Netモデルは、目に見えない実験画像に展開する際、顕著な一般化を示した。
論文 参考訳(メタデータ) (2026-02-02T06:36:06Z) - Improving the Generalisation of Learned Reconstruction Frameworks [1.0026496861838445]
X線CT(CT)では、畳み込みニューラルネットワーク(CNN)が投影データをフィルタリングするために広く使われている。
グラフとグリッドの畳み込みを利用してトモグラフィーデータを処理するハイブリッドニューラルネットワークアーキテクチャを提案する。
GLMは、構造的類似性とピーク信号-雑音比の観点から、性能が定量化されるとCNNよりも優れることを示す。
論文 参考訳(メタデータ) (2025-11-16T18:57:13Z) - TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics [53.442362491589726]
本稿では、視覚言語モデル(VLM)を幾何学コンピュータに変換する新しいフレームワークであるTIGeR(Tool-Integrated Geometric Reasoning)を提案する。
TIGeRは、ニューラルネットワーク内で複雑な幾何学的操作を内部化しようとするのではなく、幾何学的推論要求を認識するためにモデルに権限を与える。
TIGeRは、実世界のロボット操作タスクにおいて、センチメートルレベルの精度を示しながら、幾何学的推論ベンチマーク上でSOTA性能を達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T16:20:23Z) - Chat to Chip: Large Language Model Based Design of Arbitrarily Shaped Metasurfaces [1.7706010980924418]
LLMはスペクトル予測と逆設計に必要な物理的関係を学習できることを示す。
この"chat-to-chip"ワークフローは、よりユーザフレンドリーなデータ駆動ナノフォトニクスへの一歩である。
論文 参考訳(メタデータ) (2025-09-29T02:24:57Z) - Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - Shape My Face: Registering 3D Face Scans by Surface-to-Surface
Translation [75.59415852802958]
Shape-My-Face (SMF) は、改良されたポイントクラウドエンコーダ、新しい視覚的注意機構、スキップ接続付きグラフ畳み込みデコーダ、特殊口モデルに基づく強力なエンコーダデコーダアーキテクチャである。
私たちのモデルは、トポロジカルにサウンドメッシュを最小限の監視で提供し、より高速なトレーニング時間を提供し、訓練可能なパラメータを桁違いに減らし、ノイズに強く、以前は見られないデータセットに一般化することができます。
論文 参考訳(メタデータ) (2020-12-16T20:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。