論文の概要: Oracle-MNIST: a Realistic Image Dataset for Benchmarking Machine
Learning Algorithms
- arxiv url: http://arxiv.org/abs/2205.09442v1
- Date: Thu, 19 May 2022 09:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-21 02:11:29.363553
- Title: Oracle-MNIST: a Realistic Image Dataset for Benchmarking Machine
Learning Algorithms
- Title(参考訳): Oracle-MNIST: 機械学習アルゴリズムのベンチマークのためのリアルなイメージデータセット
- Authors: Mei Wang, Weihong Deng
- Abstract要約: 我々は,古文字30,222文字の28ドルのグレースケール画像からなるOracle-MNISTデータセットを紹介した。
トレーニングセットは完全に27,222枚の画像で構成され、テストセットにはクラス毎に300枚の画像が含まれている。
- 参考スコア(独自算出の注目度): 57.29464116557734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Oracle-MNIST dataset, comprising of 28$\times $28 grayscale
images of 30,222 ancient characters from 10 categories, for benchmarking
pattern classification, with particular challenges on image noise and
distortion. The training set totally consists of 27,222 images, and the test
set contains 300 images per class. Oracle-MNIST shares the same data format
with the original MNIST dataset, allowing for direct compatibility with all
existing classifiers and systems, but it constitutes a more challenging
classification task than MNIST. The images of ancient characters suffer from 1)
extremely serious and unique noises caused by three-thousand years of burial
and aging and 2) dramatically variant writing styles by ancient Chinese, which
all make them realistic for machine learning research. The dataset is freely
available at https://github.com/wm-bupt/oracle-mnist.
- Abstract(参考訳): Oracle-MNISTデータセットは、パターン分類のベンチマークのために、10カテゴリの30,222の古代文字の28ドルのグレースケールイメージで構成されており、特に画像ノイズと歪みに関する課題がある。
トレーニングセットは完全に27,222の画像で構成され、テストセットにはクラス毎に300の画像が含まれている。
Oracle-MNISTは、元のMNISTデータセットと同じデータフォーマットを共有しており、既存のすべての分類器やシステムと直接互換性があるが、MNISTよりも難しい分類タスクとなっている。
古代の人物像が苦しむ
1)3年にわたる埋葬・老化・老化に伴う極めて深刻で独特な騒音
2) 古代中国語の書体は劇的に変化し, すべて機械学習研究の現実化に寄与した。
データセットはhttps://github.com/wm-bupt/oracle-mnistで無料で利用できる。
関連論文リスト
- Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - IIITD-20K: Dense captioning for Text-Image ReID [5.858839403963778]
IIITD-20Kは野生で捕獲された2万のユニークなアイデンティティから構成される。
説明のための最低26語で、各画像は濃密にキャプションされる。
我々は、最先端のテキスト・ツー・イメージReIDモデルとビジョン言語事前学習モデルを用いて、精巧な実験を行う。
論文 参考訳(メタデータ) (2023-05-08T06:46:56Z) - Spawrious: A Benchmark for Fine Control of Spurious Correlation Biases [8.455991178281469]
我々は,クラスと背景の素早い相関関係を含む画像分類ベンチマークスイートであるベンチマーク-O2O,M2M-Easy,Medium,Hardを提案する。
得られたデータセットは高品質で、約152Kの画像を含んでいる。
論文 参考訳(メタデータ) (2023-03-09T18:22:12Z) - Bugs in the Data: How ImageNet Misrepresents Biodiversity [98.98950914663813]
ImageNet-1k検証セットで野生動物を表す269のクラスから13450の画像を解析した。
多くのクラスが未定義あるいは重複しており、画像の12%が誤ってラベル付けされていることがわかった。
また,ImageNet-1kに含まれる野生生物関連ラベルと画像の両方が,地理的,文化的に有意な偏見を呈していることがわかった。
論文 参考訳(メタデータ) (2022-08-24T17:55:48Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z) - Data Efficient Language-supervised Zero-shot Recognition with Optimal
Transport Distillation [43.03533959429743]
本稿では,オンライン最適トランスポートを用いて,コントラスト学習のためのラベルとしてソフトな画像テキストマッチングを求めるOTTERを提案する。
事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T11:27:26Z) - MedMNIST v2: A Large-Scale Lightweight Benchmark for 2D and 3D
Biomedical Image Classification [59.10015984688104]
MedMNIST v2は、MNISTに似た大規模データセットコレクションである。
得られたデータセットは708,069個の2D画像と10,214個の3D画像で構成されている。
論文 参考訳(メタデータ) (2021-10-27T22:02:04Z) - Learning to See by Looking at Noise [87.12788334473295]
簡単なランダムなプロセスから画像を生成する一連の画像生成モデルについて検討する。
これらは、対照的な損失を伴う視覚表現学習者のトレーニングデータとして使用される。
以上の結果から,実データの構造的特性を捉えることはノイズにとって重要であるが,現実的ではないプロセスでも良好な性能が達成できることが示唆された。
論文 参考訳(メタデータ) (2021-06-10T17:56:46Z) - The Semi-Supervised iNaturalist-Aves Challenge at FGVC7 Workshop [42.02670649470055]
本稿では,CVPR 2020のFGVC7ワークショップにおいて,半教師付き認識課題として収集した新たなデータセットの詳細と動機について述べる。
データセットには、iNat-2018データセットから採取された1000種の鳥が含まれており、合計で150万枚近い画像がある。
論文 参考訳(メタデータ) (2021-03-11T20:21:16Z) - Google Landmarks Dataset v2 -- A Large-Scale Benchmark for
Instance-Level Recognition and Retrieval [9.922132565411664]
大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークであるGoogle Landmarks dataset v2(GLDv2)を紹介した。
GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。
ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。
論文 参考訳(メタデータ) (2020-04-03T22:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。