論文の概要: SlideImages: A Dataset for Educational Image Classification
- arxiv url: http://arxiv.org/abs/2001.06823v1
- Date: Sun, 19 Jan 2020 13:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 12:46:33.551885
- Title: SlideImages: A Dataset for Educational Image Classification
- Title(参考訳): SlideImages:教育用画像分類用データセット
- Authors: David Morris, Eric M\"uller-Budack, Ralph Ewerth
- Abstract要約: 教育イラストの分類を行うためのデータセットであるSlideImagesを提示する。
実際の教育画像はすべてテストデータセットとして保存しました。
本稿では,標準のディープニューラルアーキテクチャを用いたベースラインシステムを提案する。
- 参考スコア(独自算出の注目度): 8.607440622310904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past few years, convolutional neural networks (CNNs) have achieved
impressive results in computer vision tasks, which however mainly focus on
photos with natural scene content. Besides, non-sensor derived images such as
illustrations, data visualizations, figures, etc. are typically used to convey
complex information or to explore large datasets. However, this kind of images
has received little attention in computer vision. CNNs and similar techniques
use large volumes of training data. Currently, many document analysis systems
are trained in part on scene images due to the lack of large datasets of
educational image data. In this paper, we address this issue and present
SlideImages, a dataset for the task of classifying educational illustrations.
SlideImages contains training data collected from various sources, e.g.,
Wikimedia Commons and the AI2D dataset, and test data collected from
educational slides. We have reserved all the actual educational images as a
test dataset in order to ensure that the approaches using this dataset
generalize well to new educational images, and potentially other domains.
Furthermore, we present a baseline system using a standard deep neural
architecture and discuss dealing with the challenge of limited training data.
- Abstract(参考訳): 過去数年間、畳み込みニューラルネットワーク(convolutional neural networks、cnns)はコンピュータビジョンのタスクで印象的な成果を上げてきた。
さらに、イラストやデータの可視化、図形などのセンサ以外の画像は、複雑な情報伝達や大規模なデータセットの探索に一般的に使用される。
しかし、この種の画像はコンピュータビジョンにはほとんど注目されていない。
CNNや他の技術は大量のトレーニングデータを使用する。
現在、多くの文書分析システムは、教育用画像データの大規模なデータセットが不足しているため、シーン画像に基づいて訓練されている。
本稿では,この課題に対処し,教育イラストの分類を行うためのデータセットであるSlideImagesを提示する。
SlideImagesには、Wikimedia CommonsやAI2Dデータセットなど、さまざまなソースから収集したトレーニングデータと、教育スライドから収集したテストデータが含まれている。
我々は、このデータセットを用いたアプローチが新しい教育画像や潜在的に他の領域にうまく一般化するように、実際の教育イメージをテストデータセットとして保存してきた。
さらに,標準ディープニューラルアーキテクチャを用いたベースラインシステムを提案し,限られたトレーニングデータの扱いについて検討する。
関連論文リスト
- Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Efficient Deduplication and Leakage Detection in Large Scale Image
Datasets with a focus on the CrowdAI Mapping Challenge Dataset [5.149242555705579]
本稿では,知覚的ハッシュ技術を用いて効率的にデータセットを複製するドロップインパイプラインを提案する。
実験では,トレーニング分割中の250k($ sim $90%)近い画像が同一であることを示した。
その結果,60k画像の約56kがトレーニングスプリットに表示され,データ漏洩は93%であった。
論文 参考訳(メタデータ) (2023-04-05T08:36:17Z) - Image Data Augmentation for Deep Learning: A Survey [8.817690876855728]
我々は、異なる画像データ拡張手法を体系的にレビューする。
本稿では,レビュー手法の分類法を提案し,これらの手法の長所と短所について述べる。
また,3種類のコンピュータビジョンタスクに対して,様々なデータ拡張手法による広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-19T02:05:56Z) - Improving Fractal Pre-training [0.76146285961466]
動的に生成されたフラクタル画像に基づく事前学習データセットを提案する。
実験により, フラクタルを用いたネットワークの微調整は, ImageNet事前訓練ネットワークの精度の92.7-98.1%に達することが示された。
論文 参考訳(メタデータ) (2021-10-06T22:39:51Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - The Intrinsic Dimension of Images and Its Impact on Learning [60.811039723427676]
自然画像データは従来の画素表現の高次元にもかかわらず低次元構造を示すと広く信じられている。
本研究では,一般的なデータセットに次元推定ツールを適用し,深層学習における低次元構造の役割を検討する。
論文 参考訳(メタデータ) (2021-04-18T16:29:23Z) - Applying convolutional neural networks to extremely sparse image
datasets using an image subdivision approach [0.0]
本研究の目的は、畳み込みニューラルネットワーク(CNN)が、元の画像データセットを分割することにより、非常にスパースな画像ライブラリに適用できることを実証することである。
論文 参考訳(メタデータ) (2020-10-25T07:43:20Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。