論文の概要: Explorations in Self-Supervised Learning: Dataset Composition Testing for Object Classification
- arxiv url: http://arxiv.org/abs/2412.00770v1
- Date: Sun, 01 Dec 2024 11:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:41.587507
- Title: Explorations in Self-Supervised Learning: Dataset Composition Testing for Object Classification
- Title(参考訳): 自己教師付き学習における探索:オブジェクト分類のためのデータセット構成テスト
- Authors: Raynor Kirkson E. Chavez, Kyle Gabriel M. Reynoso,
- Abstract要約: 対象分類のための自己教師付き学習(SSL)モデルの性能に及ぼす画像特性の異なるデータセットを用いたサンプリングと事前学習の影響について検討する。
低解像度画像では深度事前学習モデルの方が有効であるのに対し、RGB事前学習モデルは高解像度画像ではより優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper investigates the impact of sampling and pretraining using datasets with different image characteristics on the performance of self-supervised learning (SSL) models for object classification. To do this, we sample two apartment datasets from the Omnidata platform based on modality, luminosity, image size, and camera field of view and use them to pretrain a SimCLR model. The encodings generated from the pretrained model are then transferred to a supervised Resnet-50 model for object classification. Through A/B testing, we find that depth pretrained models are more effective on low resolution images, while RGB pretrained models perform better on higher resolution images. We also discover that increasing the luminosity of training images can improve the performance of models on low resolution images without negatively affecting their performance on higher resolution images.
- Abstract(参考訳): 本稿では,画像特性の異なるデータセットを用いたサンプリングと事前学習が,オブジェクト分類のための自己教師付き学習(SSL)モデルの性能に与える影響について検討する。
そこで本研究では,モダリティ,明度,画像サイズ,カメラ視野に基づいて,Omnidataプラットフォームから2つのマンションデータセットをサンプリングし,SimCLRモデルを事前トレーニングする。
事前訓練されたモデルから生成されたエンコーディングは、オブジェクト分類のための教師付きResnet-50モデルに転送される。
A/Bテストにより,低解像度画像では深度事前学習モデルの方が有効であり,高解像度画像ではRGB事前学習モデルの方が優れていることがわかった。
また、トレーニング画像の輝度を増大させることで、高解像度画像の性能に悪影響を及ぼすことなく、低解像度画像上でのモデルの性能を向上させることができることを発見した。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - An evaluation of pre-trained models for feature extraction in image
classification [0.0]
この研究は、画像分類タスクにおける特徴抽出のために、様々な事前学習ニューラルネットワークの性能を比較することを目的としている。
以上の結果から,CLIP-ResNet50モデルに類似した性能を持つが,可変性が低いCLIP-ViT-BとViT-H-14により,データセットに沿って最高の汎用性能が達成されたことが示唆された。
論文 参考訳(メタデータ) (2023-10-03T13:28:14Z) - An Ensemble Model for Distorted Images in Real Scenarios [0.0]
本稿では,オブジェクト検出器YOLOv7を用いてCDCOCOデータセットから歪み画像を検出する。
慎重に設計した最適化により,CDCOCOテストセット上での優れた性能を実現する。
我々のデノナイジング検出モデルは、歪んだ画像をデノナイズし、修復することができるため、様々な現実のシナリオや環境において有用である。
論文 参考訳(メタデータ) (2023-09-26T15:12:55Z) - Learning from History: Task-agnostic Model Contrastive Learning for
Image Restoration [79.04007257606862]
本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史からの学習」という革新的な手法を提案する。
我々のアプローチはMCLIR(Model Contrastive Learning for Image Restoration)と呼ばれ、遅延モデルを負のモデルとして再定義し、多様な画像復元タスクと互換性を持たせる。
論文 参考訳(メタデータ) (2023-09-12T07:50:54Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Rethinking Natural Adversarial Examples for Classification Models [43.87819913022369]
ImageNet-Aは、自然対比例の有名なデータセットです。
オブジェクト検出技術を用いたImageNet-A例の背景影響を低減して仮説を検証した。
実験により,様々な分類モデルを用いた物体検出モデルは,その分類モデルよりも精度が高かった。
論文 参考訳(メタデータ) (2021-02-23T14:46:48Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z) - Improving Learning Effectiveness For Object Detection and Classification
in Cluttered Backgrounds [6.729108277517129]
本稿では,異種乱雑な背景の学習データセットを自律的に生成するフレームワークを開発する。
提案するフレームワークの学習効率は,複雑で異種な環境で改善されるべきである。
提案フレームワークの性能を実証実験により検討し,COCOデータセットを用いてトレーニングしたモデルと比較した。
論文 参考訳(メタデータ) (2020-02-27T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。