論文の概要: Does YOLO Really Need to See Every Training Image in Every Epoch?
- arxiv url: http://arxiv.org/abs/2603.17684v1
- Date: Wed, 18 Mar 2026 12:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.707367
- Title: Does YOLO Really Need to See Every Training Image in Every Epoch?
- Title(参考訳): ヨロはあらゆるエポチでトレーニング画像を見る必要があるのか?
- Authors: Xingxing Xie, Jiahua Dong, Junwei Han, Gong Cheng,
- Abstract要約: YOLO検出器は高速な推論速度で知られていますが、トレーニングには予期せぬ時間がかかります。
本稿では,どの画像を使用するべきかを動的に決定するアンチフォッティングサンプリング戦略(AFSS)を提案する。
AFSSはYOLOシリーズ検出器のトレーニングスピードアップを1.43ドル以上達成し、精度も向上した。
- 参考スコア(独自算出の注目度): 58.97843527861311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: YOLO detectors are known for their fast inference speed, yet training them remains unexpectedly time-consuming due to their exhaustive pipeline that processes every training image in every epoch, even when many images have already been sufficiently learned. This stands in clear contrast to the efficiency suggested by the ``You Only Look Once'' philosophy. This naturally raises an important question: \textit{Does YOLO really need to see every training image in every epoch?} To explore this, we propose an Anti-Forgetting Sampling Strategy (AFSS) that dynamically determines which images should be used and which can be skipped during each epoch, allowing the detector to learn more effectively and efficiently. Specifically, AFSS measures the learning sufficiency of each training image as the minimum of its detection recall and precision, and dynamically categorizes training images into easy, medium, or hard levels accordingly. Easy training images are sparsely resampled during training in a continuous review manner, with priority given to those that have not been used for a long time to reduce redundancy and prevent forgetting. Moderate training images are partially selected, prioritizing recently unused ones and randomly choosing the rest from unselected images to ensure coverage and prevent forgetting. Hard training images are fully sampled in every epoch to ensure sufficient learning. The learning sufficiency of each training image is periodically updated, enabling detectors to adaptively shift its focus toward the informative training images over time while progressively discarding redundant ones. On widely used natural image detection benchmarks (MS COCO 2017 and PASCAL VOC 2007) and remote sensing detection datasets (DOTA-v1.0 and DIOR-R), AFSS achieves more than $1.43\times$ training speedup for YOLO-series detectors while also improving accuracy.
- Abstract(参考訳): YOLO検出器は高速な推論速度で知られていますが、多くの画像が十分に学習されていなくても、すべてのエポシックな画像を処理する徹底的なパイプラインのために、予期しないほど時間がかかります。
これは『You Only Look Once』の哲学によって示唆される効率とは明らかに対照的である。
これは当然重要な疑問を引き起こします。 \textit{Does YOLOは、すべてのエポックですべてのトレーニングイメージを見る必要がありますか?
そこで本研究では,どの画像を使用するべきかを動的に決定し,各エポック期間中にスキップ可能なアンチフォッティングサンプリング戦略 (AFSS) を提案する。
特に、AFSは、各トレーニングイメージの学習効率を、その検出リコールと精度の最小限として測定し、トレーニングイメージを、容易、中、またはハードレベルに動的に分類する。
容易なトレーニングイメージは、連続的なレビュー方法でトレーニング中にわずかに再サンプリングされ、冗長性を低減し、忘れることを防ぐために長い間使われていないものへの優先順位が与えられる。
適度なトレーニング画像は部分的に選択され、最近の未使用画像を優先し、未選択画像から残りをランダムに選択することで、カバレッジを確保し、忘れることを防ぐ。
ハードトレーニングイメージは、十分な学習を確保するために、すべてのエポックに完全にサンプリングされる。
各訓練画像の学習効率は定期的に更新され、検知器は、冗長画像を段階的に破棄しながら、情報的訓練画像に適応的に焦点をシフトすることができる。
広く使われている自然画像検出ベンチマーク(MS COCO 2017とPASCAL VOC 2007)とリモートセンシング検出データセット(DOTA-v1.0とDIOR-R)において、AFSはYOLO系列検出器のトレーニングスピードアップを1.43ドル以上達成し、精度も向上した。
関連論文リスト
- TTSnap: Test-Time Scaling of Diffusion Models via Noise-Aware Pruning [53.52543819839442]
テキスト・画像拡散モデルのテスト時間スケーリングに対する顕著なアプローチは、複数のノイズシードの探索として問題を定式化する。
ノイズ対応プルーニング(TTSnap)を用いたテスト時間スケーリングを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:14:26Z) - Should VLMs be Pre-trained with Image Data? [54.50406730361859]
画像とテキストデータの混在による事前学習により、モデルが視覚言語タスクでより良いパフォーマンスを発揮できることがわかった。
平均6つの多様なタスクにおいて、1Bモデルに対して、事前学習による視覚トークンの80%を導入すると、完全に事前訓練されたモデルに視覚トークンを導入するよりも平均2%改善されることがわかった。
論文 参考訳(メタデータ) (2025-03-10T17:58:19Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Enhanced Performance of Pre-Trained Networks by Matched Augmentation
Distributions [10.74023489125222]
列車-テストの分散シフトに対処するための簡単な解を提案する。
テスト画像に対して、複数のランダムな作物に対して結果を合成する。
これは列車の時間拡張と一致するだけでなく、入力画像の完全なカバレッジも提供する。
論文 参考訳(メタデータ) (2022-01-19T22:33:00Z) - OSSID: Online Self-Supervised Instance Detection by (and for) Pose
Estimation [17.78557307620686]
多くのロボット操作アルゴリズムにはリアルタイムなオブジェクトポーズ推定が必要である。
高速検出アルゴリズムの訓練を自己監督するために、スローゼロショットポーズ推定器を利用するOSSIDフレームワークを提案する。
この自己教師型トレーニングは,既存のゼロショット検出手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:55:56Z) - Pure Noise to the Rescue of Insufficient Data: Improving Imbalanced
Classification by Training on Random Noise Images [12.91269560135337]
我々は、この制限を緩和する驚くほど単純で効果的な方法を提案する。
データ拡張のための付加雑音や逆雑音の一般的な使用とは異なり、純粋ランダムノイズ画像の直接トレーニングを提案する。
本稿では,同一ネットワーク内の自然画像に加えて,純雑音画像のトレーニングを可能にするDAR-BNを新たに提案する。
論文 参考訳(メタデータ) (2021-12-16T11:51:35Z) - ZSD-YOLO: Zero-Shot YOLO Detection using Vision-Language
KnowledgeDistillation [5.424015823818208]
COCOのようなデータセットは、多くの画像に広く注釈付けされているが、多数のカテゴリがあり、さまざまなドメインにまたがるすべてのオブジェクトクラスに注釈を付けるのは高価で難しい。
我々は,CLIPのようなゼロショット事前学習モデルからの画像とテキストの埋め込みを,YOLOv5のような一段検出器からの修正意味予測ヘッドに整合させるビジョン・ランゲージ蒸留法を開発した。
推論中、我々のモデルは追加のトレーニングなしで任意の数のオブジェクトクラスを検出するように適応できる。
論文 参考訳(メタデータ) (2021-09-24T16:46:36Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z) - Active Ensemble Deep Learning for Polarimetric Synthetic Aperture Radar
Image Classification [10.80252725670625]
本稿では,アクティブ・ラーニングの利点を生かし,PolSAR画像分類のためのアクティブ・アンサンブル・ディープ・ラーニング(AEDL)を提案する。
収束付近のディープラーニングモデルのスナップショットの予測されたラベルの35%は、まったく同じであった。
スナップショット委員会を用いてラベルなしデータの情報提供を行い、提案されたAEDLは、標準的なアクティブな学習戦略と比較して、2つの実際のPolSAR画像上でより優れたパフォーマンスを実現した。
論文 参考訳(メタデータ) (2020-06-29T01:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。