論文の概要: A Data-Centric AI Paradigm Based on Application-Driven Fine-grained
Dataset Design
- arxiv url: http://arxiv.org/abs/2209.09449v1
- Date: Tue, 20 Sep 2022 03:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:37:32.343151
- Title: A Data-Centric AI Paradigm Based on Application-Driven Fine-grained
Dataset Design
- Title(参考訳): アプリケーション駆動型きめ細かいデータセット設計に基づくデータ中心型AIパラダイム
- Authors: Huan Hu, Yajie Cui, Zhaoxiang Liu and Shiguo Lian
- Abstract要約: 本稿では,産業アプリケーションによって駆動されるデータセットのきめ細かい設計のための新しいパラダイムを提案する。
データおよびアプリケーション要件の本質的な特徴に応じて,正および負のサンプルセットを柔軟に選択する。
従来のデータ設計手法と比較して,本手法はより良い結果が得られ,誤報を効果的に低減する。
- 参考スコア(独自算出の注目度): 2.2223262422197907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has a wide range of applications in industrial scenario, but
reducing false alarm (FA) remains a major difficulty. Optimizing network
architecture or network parameters is used to tackle this challenge in academic
circles, while ignoring the essential characteristics of data in application
scenarios, which often results in increased FA in new scenarios. In this paper,
we propose a novel paradigm for fine-grained design of datasets, driven by
industrial applications. We flexibly select positive and negative sample sets
according to the essential features of the data and application requirements,
and add the remaining samples to the training set as uncertainty classes. We
collect more than 10,000 mask-wearing recognition samples covering various
application scenarios as our experimental data. Compared with the traditional
data design methods, our method achieves better results and effectively reduces
FA. We make all contributions available to the research community for broader
use. The contributions will be available at
https://github.com/huh30/OpenDatasets.
- Abstract(参考訳): ディープラーニングは産業シナリオにおいて幅広い応用があるが、偽警報(FA)を減らすことは依然として大きな困難である。
ネットワークアーキテクチャやネットワークパラメータの最適化は、アプリケーションシナリオにおけるデータの本質的な特性を無視しながら、学術的なサークルでのこの問題に対処するために使用される。
本稿では,産業アプリケーションによって駆動されるデータセットのきめ細かい設計のための新しいパラダイムを提案する。
我々は、データおよびアプリケーション要件の本質的な特徴に応じて、正と負のサンプルセットを柔軟に選択し、残りのサンプルを不確実性クラスとしてトレーニングセットに追加する。
実験データとして,さまざまなアプリケーションシナリオをカバーする1万以上のマスク着用認識サンプルを収集した。
従来のデータ設計手法と比較して,本手法はより良い結果が得られ,FAを効果的に低減する。
すべてのコントリビューションを研究コミュニティに提供して,より広範な利用を可能にしています。
コントリビューションはhttps://github.com/huh30/opendatasetsで入手できる。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Data Augmentations in Deep Weight Spaces [89.45272760013928]
そこで本研究では,Mixup法に基づく新しい拡張手法を提案する。
既存のベンチマークと新しいベンチマークでこれらのテクニックのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-11-15T10:43:13Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - DATED: Guidelines for Creating Synthetic Datasets for Engineering Design
Applications [3.463438487417909]
本研究では,合成データセットの生成,注釈付け,検証のための包括的ガイドラインを提案する。
この研究は、データセットの適切なサイズ、多様性、有用性、現実性を保証するために、思慮深いサンプリング手法の重要性を強調している。
本論文は、総合的に、エンジニアリング設計のための合成データセットの作成と公開を意図した研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-05-15T21:00:09Z) - A Survey on Deep Industrial Transfer Learning in Fault Prognostics [0.0]
本稿では,この分野での今後の研究のベストプラクティスを確立することを目的とする。
この分野では、結果を堅牢に比較し、科学的進歩を促進するための一般的なベンチマークが欠落していることが示されている。
これらの出版物で利用されるデータセットを調査し、このようなベンチマークシナリオに適した候補を特定する。
論文 参考訳(メタデータ) (2023-01-04T17:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。