論文の概要: How Small is Big Enough? Open Labeled Datasets and the Development of Deep Learning
- arxiv url: http://arxiv.org/abs/2408.10359v1
- Date: Mon, 19 Aug 2024 18:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 17:53:16.057211
- Title: How Small is Big Enough? Open Labeled Datasets and the Development of Deep Learning
- Title(参考訳): ビッグデータの規模はどの程度か? ラベル付きデータセットのオープン化とディープラーニング開発
- Authors: Daniel Souza, Aldo Geuna, Jeff Rodríguez,
- Abstract要約: コンピュータビジョンの進歩と物体認識におけるCIFAR-10のようなデータセットの役割を評価する。
その結果,サイズ,インスタンス数,カテゴリ数などのデータセット特性が重要な要因であることが示唆された。
- 参考スコア(独自算出の注目度): 0.13654846342364302
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate the emergence of Deep Learning as a technoscientific field, emphasizing the role of open labeled datasets. Through qualitative and quantitative analyses, we evaluate the role of datasets like CIFAR-10 in advancing computer vision and object recognition, which are central to the Deep Learning revolution. Our findings highlight CIFAR-10's crucial role and enduring influence on the field, as well as its importance in teaching ML techniques. Results also indicate that dataset characteristics such as size, number of instances, and number of categories, were key factors. Econometric analysis confirms that CIFAR-10, a small-but-sufficiently-large open dataset, played a significant and lasting role in technological advancements and had a major function in the development of the early scientific literature as shown by citation metrics.
- Abstract(参考訳): 本稿では,Deep Learningの出現を技術分野として検討し,オープンラベル付きデータセットの役割を強調した。
定性的かつ定量的な分析を通じて、ディープラーニング革命の中心となるコンピュータビジョンと物体認識の進歩における、CIFAR-10のようなデータセットの役割を評価する。
本研究は,CIFAR-10の現場における重要な役割と持続的な影響,およびML技術教育における重要性を浮き彫りにした。
結果,サイズ,インスタンス数,カテゴリ数などのデータセット特性が重要な要因であることが示唆された。
エコノメトリ分析により、CIFAR-10は小さいが十分大きなオープンデータセットであり、技術的進歩において重要な役割を担い、引用指標によって示されるように、初期の科学文献の発展において重要な役割を担ったことが確認された。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - A Survey on Few-Shot Class-Incremental Learning [11.68962265057818]
FSCIL(Few-shot class-incremental Learning)は、ディープニューラルネットワークが新しいタスクを学習する上で重要な課題である。
本稿では, FSCILに関する包括的調査を行う。
FSCILはコンピュータビジョンの様々な分野で大きな成果を上げている。
論文 参考訳(メタデータ) (2023-04-17T10:15:08Z) - Deep Kernel Principal Component Analysis for Multi-level Feature
Learning [14.470859959783995]
我々は、データの最も情報性の高いコンポーネントの複数のレベルを抽出するディープカーネルPCA手法(DKPCA)を開発した。
我々はDKPCAがカーネルメソッドでは検討されていないレベル間の前方および後方の依存関係を生成することを示す。
提案手法は,入力データの主要な生成因子を分離し,効率的な階層的データ探索を可能にする。
論文 参考訳(メタデータ) (2023-02-22T09:07:56Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Sample-Efficient Reinforcement Learning in the Presence of Exogenous
Information [77.19830787312743]
実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。
本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。
内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
論文 参考訳(メタデータ) (2022-06-09T05:19:32Z) - Interpreting Deep Knowledge Tracing Model on EdNet Dataset [67.81797777936868]
この作業では、EdNetと呼ばれる大規模で新しく利用可能なデータセット上で、同様のタスクを実行します。
予備実験の結果,解釈手法の有効性が示された。
論文 参考訳(メタデータ) (2021-10-31T07:18:59Z) - On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models [0.0]
高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす
2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
論文 参考訳(メタデータ) (2021-07-31T00:08:21Z) - Deep Learning Meets SAR [27.996959802587998]
リモートセンシングにおける深層学習は国際的な誇大広告となっているが、主に光学データの評価に限られている。
深層学習はSAR(Synthetic Aperture Radar)データ処理で導入されているが、最初の試みが成功したにもかかわらず、その大きな可能性はまだロックされていない。
論文 参考訳(メタデータ) (2020-06-17T17:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。