論文の概要: On the Efficacy of Multi-scale Data Samplers for Vision Applications
- arxiv url: http://arxiv.org/abs/2309.04502v1
- Date: Fri, 8 Sep 2023 04:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 18:09:30.753548
- Title: On the Efficacy of Multi-scale Data Samplers for Vision Applications
- Title(参考訳): ビジョン応用のためのマルチスケールデータサンプリングの有効性について
- Authors: Elvis Nunez, Thomas Merth, Anish Prabhu, Mehrdad Farajtabar, Mohammad
Rastegari, Sachin Mehta, Maxwell Horton
- Abstract要約: マルチスケールサンプルは暗黙的なデータ正規化器として動作し、トレーニング速度を加速することを示す。
マルチスケールのバラエティ・バッチ・サンプリングを簡単なカリキュラムで拡張し、トレーニングを通して徐々に解像度を向上する。
- 参考スコア(独自算出の注目度): 32.13488876863029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-scale resolution training has seen an increased adoption across
multiple vision tasks, including classification and detection. Training with
smaller resolutions enables faster training at the expense of a drop in
accuracy. Conversely, training with larger resolutions has been shown to
improve performance, but memory constraints often make this infeasible. In this
paper, we empirically study the properties of multi-scale training procedures.
We focus on variable batch size multi-scale data samplers that randomly sample
an input resolution at each training iteration and dynamically adjust their
batch size according to the resolution. Such samplers have been shown to
improve model accuracy beyond standard training with a fixed batch size and
resolution, though it is not clear why this is the case. We explore the
properties of these data samplers by performing extensive experiments on
ResNet-101 and validate our conclusions across multiple architectures, tasks,
and datasets. We show that multi-scale samplers behave as implicit data
regularizers and accelerate training speed. Compared to models trained with
single-scale samplers, we show that models trained with multi-scale samplers
retain or improve accuracy, while being better-calibrated and more robust to
scaling and data distribution shifts. We additionally extend a multi-scale
variable batch sampler with a simple curriculum that progressively grows
resolutions throughout training, allowing for a compute reduction of more than
30%. We show that the benefits of multi-scale training extend to detection and
instance segmentation tasks, where we observe a 37% reduction in training FLOPs
along with a 3-4% mAP increase on MS-COCO using a Mask R-CNN model.
- Abstract(参考訳): マルチスケールの解像度トレーニングは、分類や検出を含む複数のビジョンタスクで採用が増加している。
より小さな解像度でのトレーニングは、精度の低下を犠牲にして高速なトレーニングを可能にする。
逆に、より大きな解像度でのトレーニングはパフォーマンスを向上させることが示されているが、メモリの制約によってしばしば実現不可能である。
本稿では,マルチスケール学習手順の特性を実証的に検討する。
我々は,各トレーニングイテレーションでランダムに入力解像度をサンプリングし,その解像度に応じてバッチサイズを動的に調整する可変バッチサイズマルチスケールデータサンプリング器に着目した。
このようなサンプルは、バッチサイズと解像度を固定した標準的なトレーニング以上のモデル精度を改善することが示されているが、なぜそうなのかは明らかではない。
ResNet-101で広範な実験を行い、複数のアーキテクチャ、タスク、データセットにまたがる結論を検証することにより、これらのデータサンプリングの特性を探求する。
マルチスケールサンプルは暗黙的なデータ正規化器として動作し、トレーニング速度を加速することを示す。
シングルスケール・サンプラーでトレーニングされたモデルと比較すると,マルチスケール・サンプラーでトレーニングされたモデルでは精度が保たれ,あるいは向上する一方で,スケーリングやデータ分散シフトに対してより堅牢であることが示された。
さらに,マルチスケールの可変バッチサンプリングを簡単なカリキュラムで拡張し,学習過程を通じて分解能を段階的に向上させ,30%以上の計算量削減を可能にした。
マルチスケールトレーニングの利点は検出やインスタンスセグメンテーションのタスクにまで拡張され,トレーニングFLOPの37%の削減と,Mask R-CNNモデルを用いたMS-COCOの3~4%のmAP増加が観察された。
関連論文リスト
- Integrated Image-Text Based on Semi-supervised Learning for Small Sample Instance Segmentation [1.3157419797035321]
本稿では,既存情報の利用を最大化する観点から,新しいサンプルインスタンス分割法を提案する。
まず、ラベルのないデータを学習して擬似ラベルを生成し、利用可能なサンプルの数を増やすことで、モデルが完全に活用するのに役立つ。
第二に、テキストと画像の特徴を統合することにより、より正確な分類結果を得ることができる。
論文 参考訳(メタデータ) (2024-10-21T14:44:08Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - Gaussian Switch Sampling: A Second Order Approach to Active Learning [11.775252660867285]
能動的学習において、取得関数は、モデル多様体内の表現位置に直接情報性を定義する。
本稿では,アクティブラーニングの文脈における情報内容とサンプルの重要性の2次定義を提案する。
我々は,モデル表現が訓練データの欠如によって制約されている場合でも,その定義が極めて正確な重要度スコアを生成することを示す。
論文 参考訳(メタデータ) (2023-02-16T15:24:56Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Multi-Domain Joint Training for Person Re-Identification [51.73921349603597]
ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。
多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。
本稿では,パラメータを様々な要因に適応させることができる,Domain-Camera-Sample Dynamic Network (DCSD) というアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-06T09:20:59Z) - One Backward from Ten Forward, Subsampling for Large-Scale Deep Learning [35.0157090322113]
大規模機械学習システムは、しばしばプロダクション環境からの膨大なデータで継続的に訓練される。
ストリーミングデータの量は、リアルタイムのトレーニングサブシステムにとって重要な課題であり、アドホックサンプリングが標準のプラクティスである。
我々は,これらの前方パスからインスタンス毎の情報量を一定に記録することを提案する。
追加情報は、前方および後方のパスに参加するデータインスタンスの選択を測定可能に改善します。
論文 参考訳(メタデータ) (2021-04-27T11:29:02Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z) - Efficient Deep Representation Learning by Adaptive Latent Space Sampling [16.320898678521843]
監視されたディープラーニングには、アノテーションを備えた大量のトレーニングサンプルが必要です。
本稿では,学習プロセスに供給される情報サンプルを適応的に選択する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-19T22:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。