論文の概要: Rethinking Transfer Learning for Industrial Inspection: DINOv3 vs. ImageNet Pretraining Across RGB and X-ray Tasks
- arxiv url: http://arxiv.org/abs/2605.23472v1
- Date: Fri, 22 May 2026 10:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.312902
- Title: Rethinking Transfer Learning for Industrial Inspection: DINOv3 vs. ImageNet Pretraining Across RGB and X-ray Tasks
- Title(参考訳): DINOv3 vs. ImageNet Pretraining Across RGB and X-ray Tasks
- Authors: Mehdi Gharbage, Céline Teulière, Pierre Bouges, Thierry Chateau,
- Abstract要約: Webスケールのデータで事前訓練されたビジョン基礎モデルは、最近、多くの下流タスクで強力な転送機能を示している。
本研究では, 予めトレーニングしたConvNeXtバックボーンと, 教師付きImageNet分類, DINOv3蒸留との比較を行った。
- 参考スコア(独自算出の注目度): 4.448668591056245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision foundation models pretrained on web-scale data have recently shown strong transfer capabilities on many downstream tasks, but their effectiveness for industrial visual inspection remains unclear. Industrial data differ substantially from web-data and often require fine-grained dense prediction, raising the question of whether modern self-supervised pretraining can improve over the conventional transfer-learning paradigm based on supervised ImageNet initialization. In this work, we compare ConvNeXt backbones pretrained with supervised ImageNet classification or DINOv3 distillation, and relate them to the conventional ResNet-50 baseline. We evaluate semantic segmentation, instance segmentation, and object detection across four downstream datasets spanning RGB surface-defect inspection and X-ray defect detection. We further study both frozen and fully finetuned adaptation regimes. Our results show that DINOv3 offers no clear advantage in frozen transfer, but provides a stronger initialization after full finetuning on RGB tasks, yielding faster convergence and better final performance. Under X-ray modality shift, however, supervised ImageNet pretraining remains more effective in both frozen and finetuned settings. Overall, our findings suggest that modern vision foundation models are promising for supervised RGB industrial inspection, but their transferability is strongly conditioned by downstream adaptation and target modality.
- Abstract(参考訳): Webスケールデータで事前訓練された視覚基礎モデルは、最近多くの下流タスクにおいて強力な伝達能力を示したが、産業用視覚検査におけるその有効性は明らかになっていない。
産業データはWebデータとは大きく異なり、しばしば細かな密度の予測を必要とするため、教師付きイメージネットの初期化に基づく従来の移動学習パラダイムよりも、現代の自己教師付き事前学習が改善できるかどうかという疑問が提起される。
本研究では,事前にトレーニングしたConvNeXtバックボーンを,教師付きImageNet分類やDINOv3蒸留と比較し,従来のResNet-50ベースラインと比較した。
我々はRGB表面欠陥検査とX線欠陥検出にまたがる4つの下流データセットのセマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出を評価した。
さらに、凍結および完全に微調整された適応方式について研究する。
以上の結果から,DINOv3は凍結転送において明らかな優位性はないが,RGBタスクの完全微調整後,より優れた初期化を実現し,より高速な収束と最終性能が得られた。
しかしながら、X線モダリティシフトの下では、教師付きImageNet事前学習は、凍結と微調整の両方でより効果的である。
総じて,現代のビジョン基礎モデルは,RGB産業検査を監督する上で有望であるが,下流適応と目標モダリティによって伝達性が強く条件付けられていることが示唆された。
関連論文リスト
- Restoring Neural Network Plasticity for Faster Transfer Learning [0.0]
トランスファーラーニング(Transfer learning)とは、下流タスクにおけるニューラルネットワークの微調整前の重み付けのこと。
そこで本研究では,神経可塑性を微調整前に復元するための目標重量再初期化戦略を提案する。
我々の実験は、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の両方がこのアプローチの恩恵を受けていることを示している。
論文 参考訳(メタデータ) (2026-03-21T15:41:58Z) - VFM-Recon: Unlocking Cross-Domain Scene-Level Neural Reconstruction with Scale-Aligned Foundation Priors [49.39553550491549]
VFMReconは, シーンレベルの神経再構成において, スケール一貫性の要求を満たすトランスファー可能なVFMプリエントをブリッジする最初の試みである。
具体的には、まず、マルチビュースケールコヒーレンスを復元する軽量なスケールアライメントステージを導入する。
次に、トレーニング済みのVFM機能を、軽量なタスク固有アダプタを介して、ニューラルボリューム再構築パイプラインに統合する。
論文 参考訳(メタデータ) (2026-03-13T05:00:44Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection [52.66283064389691]
最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。
近年の研究では、ラベル付きデータによる自己教師付き事前学習が、ラベル付きラベルによる検出精度を向上させることが示されている。
組合わせRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T15:21:57Z) - Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - A Closer Look at Invariances in Self-supervised Pre-training for 3D
Vision [0.0]
3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。
本稿では,様々な事前学習手法を検証可能な統合フレームワークを提案する。
コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習法を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:44:15Z) - A Closer Look at Self-Supervised Lightweight Vision Transformers [44.44888945683147]
大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。
画像分類タスクと下流密度予測タスクに関する自己教師付き事前学習手法のベンチマークを行った。
バニラ・ライトウェイトなViTでさえ、デリケートなアーキテクチャ設計を持つ以前のSOTAネットワークに匹敵する性能を示している。
論文 参考訳(メタデータ) (2022-05-28T14:14:57Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - TLU-Net: A Deep Learning Approach for Automatic Steel Surface Defect
Detection [3.9548535445908928]
ほとんどの鉄鋼製造業は、まだ手動視覚検査を使用しています。
転向学習に基づくu-netフレームワークを用いた鋼材欠陥検出手法を提案する。
論文 参考訳(メタデータ) (2021-01-18T07:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。