論文の概要: Generative AI for Industrial Contour Detection: A Language-Guided Vision System
- arxiv url: http://arxiv.org/abs/2509.00284v1
- Date: Fri, 29 Aug 2025 23:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.159953
- Title: Generative AI for Industrial Contour Detection: A Language-Guided Vision System
- Title(参考訳): 産業用輪郭検出のための生成AI:言語誘導型視覚システム
- Authors: Liang Gong, Tommy, Wang, Sara Chaker, Yanchen Dong, Fouad Bousetouane, Brenden Morton, Mark Mendez,
- Abstract要約: 製造における残留輪郭検出のための言語誘導型生成視覚システムを提案する。
データ取得と前処理、条件付きGANを用いた輪郭生成、視覚言語モデリングによるマルチモーダル輪郭改善の3段階に分けられる。
改良段階では、GoogleのGemini 2.0 Flash、OpenAIのGPT-image-1をVLM誘導ワークフローに統合した、オープンソースのベースラインなど、いくつかのビジョン言語モデルをベンチマークしました。
- 参考スコア(独自算出の注目度): 22.18830213282835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Industrial computer vision systems often struggle with noise, material variability, and uncontrolled imaging conditions, limiting the effectiveness of classical edge detectors and handcrafted pipelines. In this work, we present a language-guided generative vision system for remnant contour detection in manufacturing, designed to achieve CAD-level precision. The system is organized into three stages: data acquisition and preprocessing, contour generation using a conditional GAN, and multimodal contour refinement through vision-language modeling, where standardized prompts are crafted in a human-in-the-loop process and applied through image-text guided synthesis. On proprietary FabTrack datasets, the proposed system improved contour fidelity, enhancing edge continuity and geometric alignment while reducing manual tracing. For the refinement stage, we benchmarked several vision-language models, including Google's Gemini 2.0 Flash, OpenAI's GPT-image-1 integrated within a VLM-guided workflow, and open-source baselines. Under standardized conditions, GPT-image-1 consistently outperformed Gemini 2.0 Flash in both structural accuracy and perceptual quality. These findings demonstrate the promise of VLM-guided generative workflows for advancing industrial computer vision beyond the limitations of classical pipelines.
- Abstract(参考訳): 産業用コンピュータビジョンシステムは、しばしばノイズ、材料のばらつき、制御不能な撮像条件に悩まされ、古典的なエッジ検出器と手作りパイプラインの有効性を制限している。
本研究では,CADレベルの精度を実現するために,製造における残留輪郭検出のための言語誘導型生成視覚システムを提案する。
データ取得と前処理,条件付きGANを用いた輪郭生成,視覚言語モデリングによるマルチモーダル輪郭改良という3つの段階に分けられる。
プロプライエタリなFabTrackデータセットにおいて、提案システムは輪郭忠実度を改善し、エッジの連続性と幾何学的アライメントを向上し、手動トレーシングを低減した。
改良段階では、GoogleのGemini 2.0 Flash、OpenAIのGPT-image-1をVLM誘導ワークフローに統合した、オープンソースのベースラインなど、いくつかのビジョン言語モデルをベンチマークしました。
標準化された条件下では、GPT-image-1 は構造的精度と知覚的品質の両方で一貫して Gemini 2.0 Flash を上回った。
これらの結果は、古典的なパイプラインの限界を超えて産業用コンピュータビジョンを前進させるためのVLM誘導型生成ワークフローの可能性を実証している。
関連論文リスト
- ZeroVO: Visual Odometry with Minimal Assumptions [5.694070924765915]
我々は,様々なカメラや環境にまたがるゼロショットの一般化を実現する新しいビジュアル・オドメトリー(VO)アルゴリズムであるZeroVOを紹介する。
我々は,推定深度およびカメラパラメータのノイズを処理できるキャリブレーションのない幾何対応ネットワーク構造を設計する。
我々は、複雑な自律運転状況を分析し、従来の方法に対して30%以上の改善を示す。
論文 参考訳(メタデータ) (2025-06-09T17:59:51Z) - Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters [32.21090169762889]
BALViTは、凍結視覚モデルを利用して強力なLiDARエンコーダを学習するためのアモーダル機能エンコーダである。
コードとモデルは、http://balvit.cs.uni-freiburg.deで公開しています。
論文 参考訳(メタデータ) (2025-03-05T09:30:49Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Mono2Stereo: Monocular Knowledge Transfer for Enhanced Stereo Matching [7.840781070208874]
ステレオマッチング,すなわちMono2Stereoを強化するために,モノラルな知識伝達を活用することを提案する。
合成データ事前学習と実世界のデータ微調整を併用した2段階の学習プロセスによる知識伝達を導入する。
実験の結果,事前学習したモデルでは強いゼロショット能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-11-14T03:01:36Z) - An unsupervised approach towards promptable defect segmentation in laser-based additive manufacturing by Segment Anything [7.188573079798082]
我々は、最先端のビジョントランスフォーマー(ViT)ベースのファンデーションモデルを用いて、画像セグメンテーションのためのフレームワークを構築する。
我々は、ラベル付きデータを使わずに高精度に学習し、迅速なチューニングプロセスを導出する。
我々は、現在のレーザー添加物製造プロセスに革命をもたらす可能性のある、リアルタイムな異常検出パイプラインの構築を構想する。
論文 参考訳(メタデータ) (2023-12-07T06:03:07Z) - Bilevel Generative Learning for Low-Light Vision [64.77933848939327]
本稿では、RAWからRGB領域へのデータ変換のための生成ブロックを導入することで、汎用的な低照度ビジョンソリューションを提案する。
この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。
そこで我々は,新しい二段階生成学習パラダイムを取得するために,低コストと高精度の異なる目標を目標とする2種類の学習戦略を開発した。
論文 参考訳(メタデータ) (2023-08-07T07:59:56Z) - Machine Learning based Indicators to Enhance Process Monitoring by
Pattern Recognition [0.4893345190925177]
パターンタイプと強度を組み合わせた機械学習に基づく指標のための新しいフレームワークを提案する。
半導体産業のケーススタディでは,従来のプロセス制御を越え,高品質な実験結果を得る。
論文 参考訳(メタデータ) (2021-03-24T10:13:20Z) - Cognitive Visual Inspection Service for LCD Manufacturing Industry [80.63336968475889]
本論文では,現在FPD業界で主流となっている液晶ディスプレイ(LCD)の視覚検査システムについて述べる。
システムは、堅牢/高性能欠陥認識モデルと認知視覚検査サービスアーキテクチャの2つの基礎に基づいています。
論文 参考訳(メタデータ) (2021-01-11T08:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。