論文の概要: Industrial Synthetic Segment Pre-training
- arxiv url: http://arxiv.org/abs/2505.13099v2
- Date: Tue, 20 May 2025 05:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.455448
- Title: Industrial Synthetic Segment Pre-training
- Title(参考訳): 工業用合成セグメントプレトレーニング
- Authors: Shinichi Mae, Ryousuke Yamada, Hirokatsu Kataoka,
- Abstract要約: 1)ImageNetの商業利用禁止などの法的・倫理的制約、(2)Webイメージと産業イメージのドメインギャップによる転送可能性の制限。
実際のイメージや手動のアノテーションに頼ることなく、産業アプリケーションのためのビジョンファウンデーションモデルを構築することができるだろうか?
本稿では、公式駆動型教師あり学習に基づく合成事前学習データセットInsCoreを提案する。
- 参考スコア(独自算出の注目度): 8.890247803507565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training on real-image datasets has been widely proven effective for improving instance segmentation. However, industrial applications face two key challenges: (1) legal and ethical restrictions, such as ImageNet's prohibition of commercial use, and (2) limited transferability due to the domain gap between web images and industrial imagery. Even recent vision foundation models, including the segment anything model (SAM), show notable performance degradation in industrial settings. These challenges raise critical questions: Can we build a vision foundation model for industrial applications without relying on real images or manual annotations? And can such models outperform even fine-tuned SAM on industrial datasets? To address these questions, we propose the Instance Core Segmentation Dataset (InsCore), a synthetic pre-training dataset based on formula-driven supervised learning (FDSL). InsCore generates fully annotated instance segmentation images that reflect key characteristics of industrial data, including complex occlusions, dense hierarchical masks, and diverse non-rigid shapes, distinct from typical web imagery. Unlike previous methods, InsCore requires neither real images nor human annotations. Experiments on five industrial datasets show that models pre-trained with InsCore outperform those trained on COCO and ImageNet-21k, as well as fine-tuned SAM, achieving an average improvement of 6.2 points in instance segmentation performance. This result is achieved using only 100k synthetic images, more than 100 times fewer than the 11 million images in SAM's SA-1B dataset, demonstrating the data efficiency of our approach. These findings position InsCore as a practical and license-free vision foundation model for industrial applications.
- Abstract(参考訳): 実画像データセットの事前トレーニングは、インスタンスセグメンテーションを改善するのに広く有効であることが証明されている。
しかし,(1)ImageNetの商業利用禁止などの法的・倫理的制約,(2)Webイメージと産業イメージのドメインギャップによる転送可能性の制限,という2つの大きな課題に直面している。
最近のビジョンファウンデーションモデル(SAM)でさえ、産業環境における顕著なパフォーマンス劣化を示している。
実際のイメージや手動のアノテーションに頼ることなく、産業アプリケーションのためのビジョンファウンデーションモデルを構築することができるだろうか?
このようなモデルは,産業データセット上でのSAMの微調整よりも優れていますか?
これらの問題に対処するために、公式駆動型教師あり学習(FDSL)に基づく合成事前学習データセットであるインスタンスコアセグメンテーションデータセット(InsCore)を提案する。
InsCoreは、複雑なオクルージョン、高密度階層マスク、そして一般的なWebイメージとは異なる多様な非剛体形状を含む、産業データの重要な特徴を反映した、完全なアノテーション付きインスタンスセグメンテーション画像を生成する。
従来の方法とは異なり、InsCoreは実際のイメージも人間のアノテーションも必要としない。
5つの産業データセットの実験では、InsCoreで事前トレーニングされたモデルはCOCOとImageNet-21kでトレーニングされたモデルと微調整されたSAMより優れており、インスタンスセグメンテーションのパフォーマンスが平均6.2ポイント向上している。
この結果は、SAMのSA-1Bデータセットの1100万枚より100倍以上少ない100万枚以上の合成画像を使用して達成され、我々のアプローチのデータ効率を実証している。
これらの知見は、InsCoreを産業アプリケーションのための実用的でライセンスのないビジョン基盤モデルとして位置づけている。
関連論文リスト
- UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - Physically Feasible Semantic Segmentation [58.17907376475596]
最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。
この純粋にデータ駆動のパラダイムは、特にトレーニング中に遭遇した領域から入力画像の領域がシフトした場合、しばしば不条理なセグメンテーションにつながる。
我々の方法であるPhyFea(PhyFea)は、まず、オフラインデータ駆動方式で手元に設定したセグメンテーショントレーニングから空間クラス関係を規定する明示的な制約を抽出し、これらの制約の違反を罰する形態的かつ差別的な損失を強制する。
論文 参考訳(メタデータ) (2024-08-26T22:39:08Z) - ImagiNet: A Multi-Content Benchmark for Synthetic Image Detection [0.0]
私たちは、写真、絵画、顔、雑多な4つのカテゴリにまたがる200万のサンプルのデータセットであるImagiNetを紹介します。
ImagiNetの合成画像はオープンソースとプロプライエタリの両方のジェネレータで作成され、各コンテントタイプの実際の画像はパブリックデータセットから収集される。
論文 参考訳(メタデータ) (2024-07-29T13:57:24Z) - Investigation of the Impact of Synthetic Training Data in the Industrial
Application of Terminal Strip Object Detection [4.327763441385371]
本稿では,端末ストリップ物体検出の複雑な産業応用における標準対象検出器のシム・トゥ・リアル一般化性能について検討する。
評価のために300個の実画像に手動でアノテートを行った結果,どちらの領域でも同じ規模の興味の対象が重要であることがわかった。
論文 参考訳(メタデータ) (2024-03-06T18:33:27Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - The Synthinel-1 dataset: a collection of high resolution synthetic
overhead imagery for building segmentation [1.5293427903448025]
我々は,大規模かつ多様な仮想環境を迅速かつ安価に生成する手法を開発した。
我々は,Synthinel-1が実世界のトレーニング画像の拡張に有用であることを示すために,いくつかのベンチマークデータセットを使用した。
論文 参考訳(メタデータ) (2020-01-15T04:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。