Fugu-MT 論文翻訳(概要): Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

論文の概要: Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2603.08069v1
Date: Mon, 09 Mar 2026 08:06:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:15.686301
Title: Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルを用いた電力線絶縁体検査のための合成欠陥画像生成
Authors: Xuesong Wang, Caisheng Wang,
Abstract要約: ドローンの画像を定期的な検査に頼っている企業が増えているが、正確な欠陥型分類器の訓練は依然として難しい。トレーニング不要な画像生成装置として,既製のマルチモーダル大言語モデル(MLLM)を用いて,このデータスカシティ設定に対処する。現実的な低トレーニングデータ構造を持つ公開データセットを用いたセラミック絶縁体欠陥型分類の評価を行った。
参考スコア（独自算出の注目度）: 3.72557681438567
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Utility companies increasingly rely on drone imagery for post-event and routine inspection, but training accurate defect-type classifiers remains difficult because defect examples are rare and inspection datasets are often limited or proprietary. We address this data-scarcity setting by using an off-the-shelf multimodal large language model (MLLM) as a training-free image generator to synthesize defect images from visual references and text prompts. Our pipeline increases diversity via dual-reference conditioning, improves label fidelity with lightweight human verification and prompt refinement, and filters the resulting synthetic pool using an embedding-based selection rule based on distances to class centroids computed from the real training split. We evaluate on ceramic insulator defect-type classification (shell vs. glaze) using a public dataset with a realistic low training-data regime (104 real training images; 152 validation; 308 test). Augmenting the 10% real training set with embedding-selected synthetic images improves test F1 score (harmonic mean of precision and recall) from 0.615 to 0.739 (20% relative), corresponding to an estimated 4--5x data-efficiency gain, and the gains persist with stronger backbone models and frozen-feature linear-probe baselines. These results suggest a practical, low-barrier path for improving defect recognition when collecting additional real defects is slow or infeasible.
Abstract（参考訳）: しかし、欠陥例は稀であり、検査データセットは限定的あるいはプロプライエタリであることが多いため、正確な欠陥型分類器のトレーニングは難しいままだ。本稿では,MLLMをトレーニング不要な画像生成装置として使用して,視覚的参照やテキストプロンプトから欠陥画像を合成することで,このデータスカシティ設定に対処する。我々のパイプラインは、二重参照条件により多様性を高め、軽量な人間の検証と迅速な改善によりラベルの忠実度を向上し、実際のトレーニングスプリットから計算したクラスセントロイドの距離に基づいて埋め込みベースの選択規則を用いて合成プールをフィルタする。実際の訓練用画像104点, 検証用画像152点, 試験用データ308点) を用いて, セラミック絶縁体欠陥型分類(シェル対グレーズ)を評価した。埋め込み選択された合成画像による10%の実トレーニングセットの増強により、テストF1スコア(精度とリコールのハーモニック平均)が0.615から0.739(20%相対)に向上し、推定4〜5倍のデータ効率ゲインに対応し、ゲインは強力なバックボーンモデルと凍結したリニアプローブベースラインで持続する。これらの結果から,追加の真の欠陥を収集する際の欠陥認識を改善するための実用的,低障壁パスが遅かったか,実現不可能であったことが示唆された。

関連論文リスト

Hybrid Synthetic Data Generation with Domain Randomization Enables Zero-Shot Vision-Based Part Inspection Under Extreme Class Imbalance [3.7696918637188817]
堅牢な機械学習モデルのトレーニングには、大量の高品質なラベル付きデータが必要である。欠陥サンプルは本質的に稀であり、モデル性能を低下させる深刻なクラス不均衡を引き起こす。合成データ生成は、大きく、バランスよく、完全に注釈付けされたデータセットの作成を可能にすることで、有望なソリューションを提供する。
論文参考訳（メタデータ） (2025-11-28T05:30:49Z)
GRASP-PsONet: Gradient-based Removal of Spurious Patterns for PsOriasis Severity Classification [0.0]
本稿では,突発的な相関を導入し,問題のあるトレーニングイメージを自動的にフラグするフレームワークを提案する。フラグ付き画像の8.2%は、保持されたテストセットでモデルAUC-ROCを5%(85%から90%)改善する。 2人の皮膚科医によって評価された訓練データのサブセットに適用した場合、この方法は、レイター間不一致の90%以上を識別する。
論文参考訳（メタデータ） (2025-06-27T03:42:09Z)
Uniformity First: Uniformity-aware Test-time Adaptation of Vision-language Models against Image Corruption [4.792851066169872]
ビジョン言語モデルは、トレーニングモデルと大きなギャップを持つデータセットに直面すると、依然として苦しむことが分かっています。本稿では,センサ劣化に頑健なモデルを実現するために,情報バランスTTA (UnInfo) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-19T09:47:46Z)
Accelerating Domain-Aware Electron Microscopy Analysis Using Deep Learning Models with Synthetic Data and Image-Wide Confidence Scoring [0.0]
我々は物理に基づく合成画像とデータ生成装置を作成し、その結果、同等の精度(0.86)、リコール(0.63)、F1スコア(0.71)、エンジニアリング特性予測(R2=0.82)を実現する機械学習モデルを得た。本研究は,合成データがMLの人間依存を排除し,画像毎に多くの特徴を検出する必要がある場合に,ドメイン認識の手段を提供することを示す。
論文参考訳（メタデータ） (2024-08-02T20:15:15Z)
Guided Score identity Distillation for Data-Free One-Step Text-to-Image Generation [62.30570286073223]
拡散に基づくテキスト・画像生成モデルは、テキスト記述と整合した画像を生成する能力を実証している。本研究では, 実データにアクセスすることなく, 事前学習した拡散モデルの効率的な蒸留を可能にする, データフリーガイド蒸留法を提案する。データフリー蒸留法は, 1ステップ生成装置で生成した合成画像のみをトレーニングすることにより, FIDとCLIPのスコアを急速に向上させ, 競争力のあるCLIPスコアを維持しつつ, 最先端のFID性能を実現する。
論文参考訳（メタデータ） (2024-06-03T17:44:11Z)
Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。まず、回帰損失と高価なデータセット構築の必要性を排除します。第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文参考訳（メタデータ） (2024-05-23T17:59:49Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文参考訳（メタデータ） (2023-12-07T18:59:59Z)
Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文参考訳（メタデータ） (2020-08-06T02:07:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。