論文の概要: WaferSAGE: Large Language Model-Powered Wafer Defect Analysis via Synthetic Data Generation and Rubric-Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.27629v3
- Date: Thu, 07 May 2026 01:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.282267
- Title: WaferSAGE: Large Language Model-Powered Wafer Defect Analysis via Synthetic Data Generation and Rubric-Guided Reinforcement Learning
- Title(参考訳): WaferSAGE: 合成データ生成とルーブリックガイド強化学習による大規模言語モデルによるウェーハ欠陥解析
- Authors: Ke Xu,
- Abstract要約: We present WaferSAGE, a framework for wafer defect visual questioning using small vision- language model。
我々はクラスタリングに基づくクリーニングを用いてラベルノイズをフィルタリングし、視覚言語モデルを用いて包括的欠陥記述を生成する。
これらのルーブリックは、VQAペアの合成をガイドし、欠陥型の同定、空間分布、形態学、根本原因分析を確実にする。
- 参考スコア(独自算出の注目度): 8.029209745978878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present WaferSAGE, a framework for wafer defect visual question answering using small vision-language models. To address data scarcity in semiconductor manufacturing, we propose a three-stage synthesis pipeline incorporating structured rubric generation for precise evaluation. Starting from limited labeled wafer maps, we employ clustering-based cleaning to filter label noise, then generate comprehensive defect descriptions using vision-language models, which are converted into structured evaluation rubrics criteria. These rubrics guide the synthesis of VQA pairs, ensuring coverage across defect type identification, spatial distribution, morphology, and root cause analysis. Our dual assessment framework aligns rule-based metrics with LLM-Judge scores via Bayesian optimization, enabling reliable automated evaluation. Through curriculum-based reinforcement learning with Group Sequence Policy Optimization (GSPO) and rubric-aligned rewards, our 4B-parameter Qwen3-VL model achieves a 6.493 LLM-Judge score, closely approaching Gemini-3-Flash (7.149) while enabling complete on-premise deployment. We demonstrate that small models with domain-specific training can surpass proprietary large models in specialized industrial visual understanding, offering a viable path for privacy-preserving, cost-effective deployment in semiconductor manufacturing.
- Abstract(参考訳): We present WaferSAGE, a framework for wafer defect visual questioning using small vision- language model。
半導体製造におけるデータ不足に対処するために,構造化ルーリック生成を取り入れた3段階合成パイプラインを提案する。
限られたラベル付きウェハマップから始まり、クラスタリングに基づくクリーニングを用いてラベルノイズをフィルタリングし、視覚言語モデルを用いて包括的欠陥記述を生成し、構造化された評価ルークス基準に変換する。
これらのルーブリックは、VQAペアの合成をガイドし、欠陥型の同定、空間分布、形態学、根本原因分析を確実にする。
我々の二重評価フレームワークは、ベイジアン最適化によるルールベースメトリクスとLLM-Judgeスコアを整合させ、信頼性の高い自動評価を可能にする。
グループシーケンスポリシー最適化(GSPO)によるカリキュラムベースの強化学習とルーブリック対応の報酬により,我々の4BパラメータQwen3-VLモデルは6.493 LLM-Judgeスコアを達成し,Gemini-3-Flash(7.149)に近づき,完全なオンプレミス展開を実現した。
本研究では,半導体製造におけるプライバシ保護とコスト効率の両立を実現するため,専門的な産業的視覚的理解において,ドメイン固有トレーニングを持つ小型モデルがプロプライエタリな大規模モデルを上回ることを実証する。
関連論文リスト
- VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought [16.361394107862502]
画像内の実際の視覚的証拠に、各推論ステップを明示的にリンクするVisual Grounding Chain-of-Thoughtデータセットを提案する。
パイプラインは、GPT-4oでステップバイステップのグラウンドド推論を生成し、合理的に駆動されるオープンセット検出プロセスを通じてグラウンドディングを洗練する。
LLaVA-1.5やQwen2-VLを含む代表的なLVLMによる実験は、ほとんどの評価指標に対して一貫した改善を示した。
論文 参考訳(メタデータ) (2026-04-23T08:04:07Z) - Evian: Towards Explainable Visual Instruction-tuning Data Auditing [14.93566912726999]
本稿では,モデル応答を構成的認知要素に分解する「分解的評価」パラダイムを提案する。
このパラダイムを、画像テキスト一貫性、論理コヒーレンス、ファクチュアル正確性の軸に沿ってこれらのコンポーネントを評価する自動化フレームワークであるEVIANを介してインスタンス化する。
論文 参考訳(メタデータ) (2026-04-22T13:28:27Z) - FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios [58.34124792457706]
製造業セクターは、単純な認識から自律的な実行に移行するために、MLLM(Multimodal Large Language Models)をますます採用している。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせて、微粒なドメインセマンティクスを付加した高品質なデータセットを構築します。
次に, 3 つの製造課題,すなわち, 構造面検査, 組立検査, 組立検証の18の最先端MLLMを評価し, 大幅な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-04-08T12:23:27Z) - Portfolio Optimization Proxies under Label Scarcity and Regime Shifts via Bayesian and Deterministic Students under Semi-Supervised Sandwich Training [0.0]
本稿では,低データ環境と不確実性を考慮した機械学習支援ポートフォリオ最適化フレームワークを提案する。
本研究では,リスク条件値(CVaR)がスーパーバイザラベルを生成する教師学習パイプラインを構築し,ニューラルネットワークを実データと合成データの両方を用いて訓練する。
学生モデルは、いくつかの設定でCVaR教師と一致または性能を向上し、レギュラーシフトによる堅牢性の向上とターンオーバーの低減を実現している。
論文 参考訳(メタデータ) (2026-04-04T06:42:38Z) - Beyond the Academic Monoculture: A Unified Framework and Industrial Perspective for Attributed Graph Clustering [75.50670592447219]
分散グラフクラスタリング(AGC)は、構造トポロジとノード属性を共同でモデル化することによって、ノードを凝集性グループに分割する基本的な教師なしタスクである。
この調査は、3つの相補的な視点からAGCを包括的かつ工業的に基礎づけたレビューを提供する。
論文 参考訳(メタデータ) (2026-03-21T14:15:34Z) - Preference Score Distillation: Leveraging 2D Rewards to Align Text-to-3D Generation with Human Preference [69.34278282513593]
Preference Score Distillation (PSD) は、3Dトレーニングデータなしでテキストから3D合成を行うための最適化ベースのフレームワークである。
我々の重要な洞察は、ピクセルレベルの勾配の不整合性に起因している。
我々は、好みスコアと負のテキスト埋め込みを協調最適化するための適応戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T08:23:36Z) - Supervised Contrastive Machine Unlearning of Background Bias in Sonar Image Classification with Fine-Grained Explainable AI [1.4610038284393168]
音響ソナー画像解析は、物体の検出と分類において重要な役割を果たす。
高精度を実現する既存のAIモデルは、しばしば海底の特徴に過度に依存し、一般化が不十分になる。
i) 海底による背景バイアスを低減するために従来の三重項損失を拡大するTCUモジュール,(ii) 浮き彫りソナーフレームワーク(UESF) という2つの重要なモジュールを統合した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-01T05:25:34Z) - Large Wireless Localization Model (LWLM): A Foundation Model for Positioning in 6G Networks [26.30108656575931]
本稿では,無線位置決めに適したファンデーションモデルに基づくソリューションを提案する。
まず、異なる自己教師付き学習(SSL)タスクが汎用的およびタスク固有の意味的特徴をどのように獲得するかを分析する。
提案するLarge Wireless Localization Model (LWLM) の事前学習手法を設計する。
論文 参考訳(メタデータ) (2025-05-15T10:04:44Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z) - Semi-supervised 3D Object Detection with Proficient Teachers [114.54835359657707]
自律運転のシナリオにおけるクラウドベースの3Dオブジェクト検出器の優位性は、大量の正確なラベル付きサンプルに大きく依存している。
Pseudo-Labeling法はSSLフレームワークで一般的に使用されているが、教師モデルの低品質な予測は、その性能を著しく制限している。
そこで本研究では,教師モデルをさらに高度化することで,半教師付き3次元物体検出のためのPseudo-Labelingフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-26T04:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。