論文の概要: Comparative Analysis of Different Methods for Classifying Polychromatic Sketches
- arxiv url: http://arxiv.org/abs/2504.08186v1
- Date: Fri, 11 Apr 2025 01:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:57.895381
- Title: Comparative Analysis of Different Methods for Classifying Polychromatic Sketches
- Title(参考訳): 多色スケッチの分類法の比較分析
- Authors: Fahd Baba, Devon Mack,
- Abstract要約: 我々は手描きのドゥードルの大きなデータセットを収集し、整理し、解析した。
我々は、これらの画像を170の異なるカテゴリに分類するために、複数の機械学習ソリューションを比較した。
最も優れたモデルがTop-1の精度47.5%に達し、データセットでの人間のパフォーマンスを大きく上回った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Image classification is a significant challenge in computer vision, particularly in domains humans are not accustomed to. As machine learning and artificial intelligence become more prominent, it is crucial these algorithms develop a sense of sight that is on par with or exceeds human ability. For this reason, we have collected, cleaned, and parsed a large dataset of hand-drawn doodles and compared multiple machine learning solutions to classify these images into 170 distinct categories. The best model we found achieved a Top-1 accuracy of 47.5%, significantly surpassing human performance on the dataset, which stands at 41%.
- Abstract(参考訳): 画像分類はコンピュータビジョンにおいて重要な課題であり、特に人間が慣れていない領域では重要な課題である。
機械学習と人工知能がより顕著になるにつれて、これらのアルゴリズムは人間の能力に匹敵する、あるいは超越した視覚を発達させることが不可欠である。
このため、手描きのドゥードルの大きなデータセットを収集、整理、解析し、複数の機械学習ソリューションを比較して、これらの画像を170の異なるカテゴリに分類した。
最も優れたモデルがTop-1の精度47.5%を達成し、データセットの人間のパフォーマンスを大きく上回った。
関連論文リスト
- MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - Local-to-Global Self-Supervised Representation Learning for Diabetic Retinopathy Grading [0.0]
本研究では,自己指導型学習と知識蒸留を用いた新しいハイブリッド学習モデルを提案する。
我々のアルゴリズムでは、自己教師型学習および知識蒸留モデルの中で初めて、テストデータセットがトレーニングデータセットよりも50%大きい。
類似の最先端モデルと比較すると,より高精度で効率的な表現空間が得られた。
論文 参考訳(メタデータ) (2024-10-01T15:19:16Z) - Sapiens: Foundation for Human Vision Models [14.72839332332364]
サピエンス(Sapiens)は、4つの基本的人間中心の視覚タスクのモデル群である。
我々のモデルは1Kの高分解能推論をサポートし、個々のタスクに容易に適応できる。
我々は、人間の画像のキュレートされたデータセット上での自己教師付き事前訓練が、多種多様な人間中心のタスクのパフォーマンスを著しく向上させるのを観察する。
論文 参考訳(メタデータ) (2024-08-22T17:37:27Z) - AIGIQA-20K: A Large Database for AI-Generated Image Quality Assessment [54.93996119324928]
AIGIQA-20Kとして知られる2万のAIGIと420,000の主観評価を備えた、これまでで最大のAIGI主観的品質データベースを作成します。
このデータベース上でベンチマーク実験を行い、16の主流AIGI品質モデルと人間の知覚との対応性を評価する。
論文 参考訳(メタデータ) (2024-04-04T12:12:24Z) - Additional Look into GAN-based Augmentation for Deep Learning COVID-19
Image Classification [57.1795052451257]
我々は,GANに基づく拡張性能のデータセットサイズ依存性について,小サンプルに着目して検討した。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
論文 参考訳(メタデータ) (2024-01-26T08:28:13Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - Urban feature analysis from aerial remote sensing imagery using
self-supervised and semi-supervised computer vision [8.124947412639704]
コンピュータビジョンを用いたオーバーヘッド画像の解析は学術文献で注目されている問題である。
これらの問題は、表現学習の進歩を取り入れた、より汎用的なフレームワークの開発を通じて解決される。
6千万枚の未表示画像から10年間の都市インフラ進化の低レベル検出に成功したことは, 定量的都市研究を推し進めるための我々のアプローチの有意義な可能性を実証している。
論文 参考訳(メタデータ) (2022-08-17T03:41:56Z) - A Strong Baseline for the VIPriors Data-Efficient Image Classification
Challenge [9.017660524497389]
本稿では,VIPriorsチャレンジデータセットに基づく,データ効率の高い画像分類のための強力なベースラインを提案する。
我々のベースラインは精度69.7%に達し、VIPriors 2021チャレンジへの応募の50%を上回っている。
論文 参考訳(メタデータ) (2021-09-28T08:45:15Z) - Automatic Main Character Recognition for Photographic Studies [78.88882860340797]
画像の主人公は、最初に見る人の注意を引く最も重要な人間である。
画像中の主文字の同定は,従来の写真研究やメディア分析において重要な役割を担っている。
機械学習に基づく人間のポーズ推定を用いて主文字を識別する手法を提案する。
論文 参考訳(メタデータ) (2021-06-16T18:14:45Z) - cofga: A Dataset for Fine Grained Classification of Objects from Aerial
Imagery [2.169919643934826]
細粒度分類研究の発展のための新しいオープンデータセットであるCOFGAを紹介する。
データセットの2,104枚の画像は、地上515cmの地中撮影システムから収集される。
14256個の注釈付きオブジェクトは、2つのクラス、15のサブクラス、14のユニークな特徴、8の知覚された色に分類された。
論文 参考訳(メタデータ) (2021-05-26T18:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。