論文の概要: Infrared Object Detection with Ultra Small ConvNets: Is ImageNet Pretraining Still Useful?
- arxiv url: http://arxiv.org/abs/2508.02927v1
- Date: Mon, 04 Aug 2025 22:01:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.700744
- Title: Infrared Object Detection with Ultra Small ConvNets: Is ImageNet Pretraining Still Useful?
- Title(参考訳): 超小型コンブネットを用いた赤外線物体検出:イメージネットの事前学習は依然として有効か?
- Authors: Srikanth Muralidharan, Heitor R. Medeiros, Masih Aminbeidokhti, Eric Granger, Marco Pedersoli,
- Abstract要約: 画像ネット事前学習がバックボーンの小型化に及ぼす影響について検討する(超小型モデル, 1M のパラメータを持つ)。
3つの異なるデータセットに対する実験により、ImageNetの事前トレーニングは、一定のキャパシティしきい値を超えても有用であるが、アウト・オブ・ディストリビューション検出の堅牢性の観点からは、リターンが低下していることがわかった。
- 参考スコア(独自算出の注目度): 12.581848707015473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world applications require recognition models that are robust to different operational conditions and modalities, but at the same time run on small embedded devices, with limited hardware. While for normal size models, pre-training is known to be very beneficial in accuracy and robustness, for small models, that can be employed for embedded and edge devices, its effect is not clear. In this work, we investigate the effect of ImageNet pretraining on increasingly small backbone architectures (ultra-small models, with $<$1M parameters) with respect to robustness in downstream object detection tasks in the infrared visual modality. Using scaling laws derived from standard object recognition architectures, we construct two ultra-small backbone families and systematically study their performance. Our experiments on three different datasets reveal that while ImageNet pre-training is still useful, beyond a certain capacity threshold, it offers diminishing returns in terms of out-of-distribution detection robustness. Therefore, we advise practitioners to still use pre-training and, when possible avoid too small models as while they might work well for in-domain problems, they are brittle when working conditions are different.
- Abstract(参考訳): 多くの現実世界のアプリケーションは、異なる運用条件やモダリティに対して堅牢な認識モデルを必要とするが、同時にハードウェアに制限のある小さな組み込みデバイス上でも動作する。
通常のサイズモデルでは、事前学習は精度と堅牢性において非常に有益であることが知られており、小型モデルでは組み込みデバイスやエッジデバイスに使用できるが、その効果は明らかではない。
本研究では,イメージネットの事前トレーニングが,赤外線視覚の下流オブジェクト検出タスクにおけるロバスト性に対して,より小さなバックボーンアーキテクチャ(ウルトラ・スモール・モデル,$<100Mパラメータ)に与える影響について検討する。
標準オブジェクト認識アーキテクチャから導かれるスケーリング法則を用いて、2つの超小型バックボーンファミリーを構築し、その性能を体系的に研究する。
3つの異なるデータセットに対する実験により、ImageNetの事前トレーニングは、一定のキャパシティしきい値を超えても有用であるが、アウト・オブ・ディストリビューション検出の堅牢性の観点からは、リターンが低下していることがわかった。
そのため、私たちは、まだ事前トレーニングを実践者に勧めるとともに、ドメイン内の問題に対してうまく機能する小さなモデルを避けることができれば、作業条件が異なる場合には脆弱である。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Msmsfnet: a multi-stream and multi-scale fusion net for edge detection [6.1932429715357165]
エッジ検出は、ImageNetデータセット上のバックボーンネットワークのトレーニング済み重量に大きく依存する。
我々は、エッジ検出のための新しいネットワークアーキテクチャ、マルチストリームおよびマルチスケールフュージョンネット(msmsfnet)を考案した。
すべてのモデルをスクラッチからトレーニングすることで、我々のモデルは3つの公開データセットで最先端のエッジ検出器より優れています。
論文 参考訳(メタデータ) (2024-04-07T08:03:42Z) - EasyNet: An Easy Network for 3D Industrial Anomaly Detection [49.26348455493123]
3D異常検出は、産業生産において、新しくて重要なコンピュータビジョンタスクである。
我々は,事前訓練されたモデルやメモリバンクを使わずに,容易に展開可能なネットワーク(EasyNet)を提案する。
実験の結果、EasyNetはトレーニング済みのモデルやメモリバンクを使わずに92.6%の異常検出AUROCを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-26T02:46:50Z) - DIME-FM: DIstilling Multimodal and Efficient Foundation Models [72.1900621000677]
VLFM(Large Vision-Language Foundation Models)は、画像キャプチャペアの大規模なデータセットに基づいてトレーニングされる。
我々は,大容量VLFMに含まれる知識を,より小型でカスタマイズされた基礎モデルに転送できる新しい蒸留機構(DIME-FM)を導入する。
結果として得られたモデル "Distill-ViT-B/32" は、プライベートWiTデータセットで事前トレーニングされたCLIP-ViT-B/32モデルと競合する。
論文 参考訳(メタデータ) (2023-03-31T17:47:23Z) - ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。
我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。
我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-03-30T02:02:32Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Scaling Novel Object Detection with Weakly Supervised Detection
Transformers [21.219817483091166]
Weakly Supervised Detection Transformerを提案する。これは大規模な事前学習データセットからWSODファインタニングへの効率的な知識伝達を可能にする。
提案手法は, 大規模オブジェクト検出データセットにおいて, 従来の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-11T21:45:54Z) - "Understanding Robustness Lottery": A Geometric Visual Comparative
Analysis of Neural Network Pruning Approaches [29.048660060344574]
この研究は、異なるプルーニング手法がネットワークの内部的特徴表現とそれに伴うモデルパフォーマンスへの影響をどのように変化させるかを明らかにすることを目的としている。
モデル性能と特徴表現に対するプルーニングの影響を比較・強調するために,特徴表現の視覚幾何学的解析を導入する。
提案ツールは,プルーニング手法の詳細な比較環境と,一般的なデータ破損に対するモデル応答の包括的理解を提供する。
論文 参考訳(メタデータ) (2022-06-16T04:44:13Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - Compressed Object Detection [15.893905488328283]
我々は,不必要なモデル接続を捨てる圧縮技術であるプルーニングを拡張し,オブジェクト検出作業のための重み共有技術を提案する。
我々は、性能を損なうことなく、最先端のオブジェクト検出モデルを30.0%圧縮することができる。
論文 参考訳(メタデータ) (2021-02-04T21:32:56Z) - Detecting soccer balls with reduced neural networks: a comparison of
multiple architectures under constrained hardware scenarios [0.8808021343665321]
この研究は、制約のあるハードウェア環境をターゲットにした最近のニューラルネットワークの提案の比較研究を提供する。
我々は、MobileNetV2とMobileNetV3モデルの複数のオープン実装を、基礎となる異なるアーキテクチャで訓練する。
以上の結果から,MobileNetV3モデルは制約シナリオのみにおいて,mAPと推論時間とのトレードオフが良好であること,また,高幅乗算器を持つMobileNetV2はサーバ側推論に適していることが示唆された。
論文 参考訳(メタデータ) (2020-09-28T23:26:25Z) - Making DensePose fast and light [78.49552144907513]
このタスクを解くことができる既存のニューラルネットワークモデルは、非常にパラメータ化されている。
現在のモデルで端末のDense Pose推論を有効にするには、高価なサーバーサイドのインフラをサポートし、安定したインターネット接続が必要である。
本研究では,DensePose R-CNNモデルのアーキテクチャを再設計することで,最終的なネットワークがその精度の大部分を維持しつつ,より軽量で高速なネットワークを実現することを目的とする。
論文 参考訳(メタデータ) (2020-06-26T19:42:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。