論文の概要: SynthPID: P&ID digitization from Topology-Preserving Synthetic Data
- arxiv url: http://arxiv.org/abs/2604.16513v1
- Date: Wed, 15 Apr 2026 09:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.04223
- Title: SynthPID: P&ID digitization from Topology-Preserving Synthetic Data
- Title(参考訳): SynthPID: 位相保存合成データからのP&IDデジタル化
- Authors: Suraj Prasad, Pinak Mahapatra,
- Abstract要約: 実際の図面から直接シードされた665個の合成P&IDのコーパスであるSynthPIDを紹介する。
SynthPIDだけでトレーニングされたモデルは、PID2Graph OPEN100上で63.8 +/-3.1%のエッジmAPを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating the digitization of Piping and Instrumentation Diagrams (P&IDs) into structured process graphs would unlock significant value in plant operations, yet progress is bottlenecked by a fundamental data problem: engineering drawings are proprietary, and the entire community shares a single public benchmark of just 12 annotated images. Prior attempts at synthetic augmentation have fallen short because template-based generators scatter symbols at random, producing graphs that bear little resemblance to real process plants and, accordingly, yield only approximately 33% edge detection accuracy under synth-only training. We argue the failure is structural rather than visual and address it by introducing SynthPID, a corpus of 665 synthetic P&IDs whose pipe topology is seeded directly from real drawings. Paired with a patch-based Relationformer adapted for high-resolution diagrams, a model trained on SynthPID alone achieves 63.8 +/- 3.1% edge mAP on PID2Graph OPEN100 without seeing a single real P&ID during training, closing within 8 pp of the real-data oracle. These gains hold up under a controlled comparison against the template-based regime, confirming that generation quality drives performance rather than model choice. A scaling study reveals that gains flatten beyond roughly 400 synthetic images, pointing to seed diversity as the binding constraint.
- Abstract(参考訳): P&ID(Piping and Instrumentation Diagram)を構造化プロセスグラフにデジタル化すると、プラントの運用において重要な価値が解放されるが、技術図面はプロプライエタリであり、コミュニティ全体がたった12の注釈付きイメージの単一の公開ベンチマークを共有しているという根本的なデータ問題によって、進歩はボトルネックとなる。
テンプレートベースのジェネレータがランダムにシンボルを散乱させ、実際のプロセスプラントとほとんど類似しないグラフを生成し、その結果、合成のみのトレーニングでは、約33%のエッジ検出精度しか得られない。
実際の図面から直接パイプトポロジをシードした665個の合成P&IDのコーパスであるSynthPIDを導入することで,失敗は視覚的ではなく構造的である,と我々は主張する。
パッチベースのリレーショナルフォーマーを高解像度のダイアグラムに適合させ、SynthPIDでトレーニングされたモデルは、PID2Graph OPEN100上の63.8 +/-3.1%のエッジmAPを、トレーニング中に1つの実際のP&IDを見ることなく達成し、実際のデータオラクルの8pp以内で閉じる。
これらの利得はテンプレートベースのレシエーションとコントロールされた比較で維持され、生成品質がモデル選択よりもパフォーマンスを向上することを確認した。
スケーリングの研究では、約400の合成画像が平坦になり、種子の多様性が結合の制約であることを示している。
関連論文リスト
- Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data [78.70620682374624]
ハイレベルなテキスト記述に基づく表情画像データの合成のための新しいフレームワークであるSynFERを紹介する。
合成データの質と信頼性を確保するため,セマンティックガイダンス手法と擬似ラベル生成手法を提案する。
その結果, 提案手法の有効性と合成データの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-13T14:58:21Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthesizing Annotated Image and Video Data Using a Rendering-Based
Pipeline for Improved License Plate Recognition [8.15545354580221]
ニューラルネットワークアプリケーションでは、トレーニングサンプルの不足が一般的な問題である。
アノテーション付きデータセットを合成するための新しいレンダリングベースのパイプラインを提案する。
パイプラインは、完全に自動化された手順で、合成および部分リアルな画像および映像データを生成および注釈付けすることができる。
論文 参考訳(メタデータ) (2022-09-28T22:11:58Z) - UnrealPerson: An Adaptive Pipeline towards Costless Person
Re-identification [102.58619642363959]
本稿では,unrealpersonという,非現実的な画像データをフル活用して,トレーニングとデプロイメントの両面でコストを削減する新しいパイプラインを提案する。
3,000のIDと12万のインスタンスで、MSMT17に直接転送されると38.5%のランク-1の精度が得られる。
論文 参考訳(メタデータ) (2020-12-08T08:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。