論文の概要: SlideImages: A Dataset for Educational Image Classification
- arxiv url: http://arxiv.org/abs/2001.06823v1
- Date: Sun, 19 Jan 2020 13:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 12:46:33.551885
- Title: SlideImages: A Dataset for Educational Image Classification
- Title(参考訳): SlideImages:教育用画像分類用データセット
- Authors: David Morris, Eric M\"uller-Budack, Ralph Ewerth
- Abstract要約: 教育イラストの分類を行うためのデータセットであるSlideImagesを提示する。
実際の教育画像はすべてテストデータセットとして保存しました。
本稿では,標準のディープニューラルアーキテクチャを用いたベースラインシステムを提案する。
- 参考スコア(独自算出の注目度): 8.607440622310904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past few years, convolutional neural networks (CNNs) have achieved
impressive results in computer vision tasks, which however mainly focus on
photos with natural scene content. Besides, non-sensor derived images such as
illustrations, data visualizations, figures, etc. are typically used to convey
complex information or to explore large datasets. However, this kind of images
has received little attention in computer vision. CNNs and similar techniques
use large volumes of training data. Currently, many document analysis systems
are trained in part on scene images due to the lack of large datasets of
educational image data. In this paper, we address this issue and present
SlideImages, a dataset for the task of classifying educational illustrations.
SlideImages contains training data collected from various sources, e.g.,
Wikimedia Commons and the AI2D dataset, and test data collected from
educational slides. We have reserved all the actual educational images as a
test dataset in order to ensure that the approaches using this dataset
generalize well to new educational images, and potentially other domains.
Furthermore, we present a baseline system using a standard deep neural
architecture and discuss dealing with the challenge of limited training data.
- Abstract(参考訳): 過去数年間、畳み込みニューラルネットワーク(convolutional neural networks、cnns)はコンピュータビジョンのタスクで印象的な成果を上げてきた。
さらに、イラストやデータの可視化、図形などのセンサ以外の画像は、複雑な情報伝達や大規模なデータセットの探索に一般的に使用される。
しかし、この種の画像はコンピュータビジョンにはほとんど注目されていない。
CNNや他の技術は大量のトレーニングデータを使用する。
現在、多くの文書分析システムは、教育用画像データの大規模なデータセットが不足しているため、シーン画像に基づいて訓練されている。
本稿では,この課題に対処し,教育イラストの分類を行うためのデータセットであるSlideImagesを提示する。
SlideImagesには、Wikimedia CommonsやAI2Dデータセットなど、さまざまなソースから収集したトレーニングデータと、教育スライドから収集したテストデータが含まれている。
我々は、このデータセットを用いたアプローチが新しい教育画像や潜在的に他の領域にうまく一般化するように、実際の教育イメージをテストデータセットとして保存してきた。
さらに,標準ディープニューラルアーキテクチャを用いたベースラインシステムを提案し,限られたトレーニングデータの扱いについて検討する。
関連論文リスト
- Transductive Learning for Near-Duplicate Image Detection in Scanned Photo Collections [0.0]
本稿では,実世界のユースケースシナリオにおける近距離画像検出技術の比較研究について述べる。
本稿では、畳み込みニューラルネットワーク(CNN)や視覚変換器(ViT)といった最先端のディープラーニングアーキテクチャを活用するトランスダクティブ学習手法を提案する。
提案手法は,UKBenchと社内のプライベートデータセットにおいて,ほぼ重複画像検出のタスクにおいて,ベースライン手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-25T09:56:15Z) - Deep Image Composition Meets Image Forgery [0.0]
画像偽造は長年研究されてきた。
ディープラーニングモデルは、トレーニングのために大量のラベル付きデータを必要とする。
本研究では,画像合成深層学習モデルを用いて,実生活における操作の質に近いスプライシング画像を生成する。
論文 参考訳(メタデータ) (2024-04-03T17:54:37Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Image Data Augmentation for Deep Learning: A Survey [8.817690876855728]
我々は、異なる画像データ拡張手法を体系的にレビューする。
本稿では,レビュー手法の分類法を提案し,これらの手法の長所と短所について述べる。
また,3種類のコンピュータビジョンタスクに対して,様々なデータ拡張手法による広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-19T02:05:56Z) - Improving Fractal Pre-training [0.76146285961466]
動的に生成されたフラクタル画像に基づく事前学習データセットを提案する。
実験により, フラクタルを用いたネットワークの微調整は, ImageNet事前訓練ネットワークの精度の92.7-98.1%に達することが示された。
論文 参考訳(メタデータ) (2021-10-06T22:39:51Z) - The Intrinsic Dimension of Images and Its Impact on Learning [60.811039723427676]
自然画像データは従来の画素表現の高次元にもかかわらず低次元構造を示すと広く信じられている。
本研究では,一般的なデータセットに次元推定ツールを適用し,深層学習における低次元構造の役割を検討する。
論文 参考訳(メタデータ) (2021-04-18T16:29:23Z) - Applying convolutional neural networks to extremely sparse image
datasets using an image subdivision approach [0.0]
本研究の目的は、畳み込みニューラルネットワーク(CNN)が、元の画像データセットを分割することにより、非常にスパースな画像ライブラリに適用できることを実証することである。
論文 参考訳(メタデータ) (2020-10-25T07:43:20Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。