論文の概要: Industry-focused Synthetic Segmentation Pre-training
- arxiv url: http://arxiv.org/abs/2505.13099v1
- Date: Mon, 19 May 2025 13:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.616267
- Title: Industry-focused Synthetic Segmentation Pre-training
- Title(参考訳): 産業に焦点をあてた合成セグメンテーション事前訓練
- Authors: Shinichi Mae, Ryosuke Yamada, Hirokatsu Kataoka,
- Abstract要約: 1)ImageNetの商業利用禁止などの法的・倫理的制約、(2)Webイメージと産業イメージのドメインギャップによる転送可能性の制限。
実際のイメージや手動のアノテーションに頼ることなく、産業アプリケーションのためのビジョンファウンデーションモデルを構築することができるだろうか?
本稿では、公式駆動型教師あり学習に基づく合成事前学習データセットInsCoreを提案する。
- 参考スコア(独自算出の注目度): 10.523139845281962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training on real-image datasets has been widely proven effective for improving instance segmentation. However, industrial applications face two key challenges: (1) legal and ethical restrictions, such as ImageNet's prohibition of commercial use, and (2) limited transferability due to the domain gap between web images and industrial imagery. Even recent vision foundation models, including the segment anything model (SAM), show notable performance degradation in industrial settings. These challenges raise critical questions: Can we build a vision foundation model for industrial applications without relying on real images or manual annotations? And can such models outperform even fine-tuned SAM on industrial datasets? To address these questions, we propose the Instance Core Segmentation Dataset (InsCore), a synthetic pre-training dataset based on formula-driven supervised learning (FDSL). InsCore generates fully annotated instance segmentation images that reflect key characteristics of industrial data, including complex occlusions, dense hierarchical masks, and diverse non-rigid shapes, distinct from typical web imagery. Unlike previous methods, InsCore requires neither real images nor human annotations. Experiments on five industrial datasets show that models pre-trained with InsCore outperform those trained on COCO and ImageNet-21k, as well as fine-tuned SAM, achieving an average improvement of 6.2 points in instance segmentation performance. This result is achieved using only 100k synthetic images, more than 100 times fewer than the 11 million images in SAM's SA-1B dataset, demonstrating the data efficiency of our approach. These findings position InsCore as a practical and license-free vision foundation model for industrial applications.
- Abstract(参考訳): 実画像データセットの事前トレーニングは、インスタンスセグメンテーションを改善するのに広く有効であることが証明されている。
しかし,(1)ImageNetの商業利用禁止などの法的・倫理的制約,(2)Webイメージと産業イメージのドメインギャップによる転送可能性の制限,という2つの大きな課題に直面している。
最近のビジョンファウンデーションモデル(SAM)でさえ、産業環境における顕著なパフォーマンス劣化を示している。
実際のイメージや手動のアノテーションに頼ることなく、産業アプリケーションのためのビジョンファウンデーションモデルを構築することができるだろうか?
このようなモデルは,産業データセット上でのSAMの微調整よりも優れていますか?
これらの問題に対処するために、公式駆動型教師あり学習(FDSL)に基づく合成事前学習データセットであるインスタンスコアセグメンテーションデータセット(InsCore)を提案する。
InsCoreは、複雑なオクルージョン、高密度階層マスク、そして一般的なWebイメージとは異なる多様な非剛体形状を含む、産業データの重要な特徴を反映した、完全なアノテーション付きインスタンスセグメンテーション画像を生成する。
従来の方法とは異なり、InsCoreは実際のイメージも人間のアノテーションも必要としない。
5つの産業データセットの実験では、InsCoreで事前トレーニングされたモデルはCOCOとImageNet-21kでトレーニングされたモデルと微調整されたSAMより優れており、インスタンスセグメンテーションのパフォーマンスが平均6.2ポイント向上している。
この結果は、SAMのSA-1Bデータセットの1100万枚より100倍以上少ない100万枚以上の合成画像を使用して達成され、我々のアプローチのデータ効率を実証している。
これらの知見は、InsCoreを産業アプリケーションのための実用的でライセンスのないビジョン基盤モデルとして位置づけている。
関連論文リスト
- Bounding Box-Guided Diffusion for Synthesizing Industrial Images and Segmentation Map [50.21082069320818]
最小限の監督で高忠実度産業データセットを生成するための拡散型パイプラインを提案する。
提案手法では, 拡張有界箱表現の拡散モデルを用いて, 正確なセグメンテーションマスクを生成する。
その結果、拡散に基づく合成は、人工的な産業データと実世界の産業データとのギャップを埋めることを示した。
論文 参考訳(メタデータ) (2025-05-06T15:21:36Z) - UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - Physically Feasible Semantic Segmentation [58.17907376475596]
最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。
この純粋にデータ駆動のパラダイムは、特にトレーニング中に遭遇した領域から入力画像の領域がシフトした場合、しばしば不条理なセグメンテーションにつながる。
我々の方法であるPhyFea(PhyFea)は、まず、オフラインデータ駆動方式で手元に設定したセグメンテーショントレーニングから空間クラス関係を規定する明示的な制約を抽出し、これらの制約の違反を罰する形態的かつ差別的な損失を強制する。
論文 参考訳(メタデータ) (2024-08-26T22:39:08Z) - ImagiNet: A Multi-Content Benchmark for Synthetic Image Detection [0.0]
私たちは、写真、絵画、顔、雑多な4つのカテゴリにまたがる200万のサンプルのデータセットであるImagiNetを紹介します。
ImagiNetの合成画像はオープンソースとプロプライエタリの両方のジェネレータで作成され、各コンテントタイプの実際の画像はパブリックデータセットから収集される。
論文 参考訳(メタデータ) (2024-07-29T13:57:24Z) - Towards Sim-to-Real Industrial Parts Classification with Synthetic Dataset [6.481744951262474]
我々は、Sim-to-Realチャレンジの予備的なテストベッドとして機能する合成データセットを導入する。
6つの産業用ユースケースのうち17のオブジェクトが含まれており、その中には独立した部品や組み立て部品が含まれる。
すべてのサンプル画像は、ランダムな背景と、ドメインのランダム化の重要性を評価する後処理を伴わない。
論文 参考訳(メタデータ) (2024-04-12T19:04:59Z) - Investigation of the Impact of Synthetic Training Data in the Industrial
Application of Terminal Strip Object Detection [4.327763441385371]
本稿では,端末ストリップ物体検出の複雑な産業応用における標準対象検出器のシム・トゥ・リアル一般化性能について検討する。
評価のために300個の実画像に手動でアノテートを行った結果,どちらの領域でも同じ規模の興味の対象が重要であることがわかった。
論文 参考訳(メタデータ) (2024-03-06T18:33:27Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - Alternative Data Augmentation for Industrial Monitoring using
Adversarial Learning [0.0]
本研究では,生成的対向ネットワークを用いたデータ合成の産業的応用について検討する。
2値ラベルの作成には,問題調整三角関数とWGANモデルという2つの異なる手法を適用する。
ラベルはピクセル2ピクセルを使用してカラーイメージに変換され、U-Netのトレーニングに使用される。
論文 参考訳(メタデータ) (2022-05-09T12:16:38Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - The Synthinel-1 dataset: a collection of high resolution synthetic
overhead imagery for building segmentation [1.5293427903448025]
我々は,大規模かつ多様な仮想環境を迅速かつ安価に生成する手法を開発した。
我々は,Synthinel-1が実世界のトレーニング画像の拡張に有用であることを示すために,いくつかのベンチマークデータセットを使用した。
論文 参考訳(メタデータ) (2020-01-15T04:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。