論文の概要: Scalable Neural Data Server: A Data Recommender for Transfer Learning
- arxiv url: http://arxiv.org/abs/2206.09386v1
- Date: Sun, 19 Jun 2022 12:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 20:21:12.451611
- Title: Scalable Neural Data Server: A Data Recommender for Transfer Learning
- Title(参考訳): scalable neural data server: 転送学習のためのデータレコメンデータ
- Authors: Tianshi Cao, Sasha Doubov, David Acuna, Sanja Fidler
- Abstract要約: 転送学習は、下流のパフォーマンスを改善するために追加データを活用する一般的な戦略である。
Nerve Data Server (NDS)は、特定の下流タスクに関連するデータを推奨する検索エンジンで、この問題に対処するためにこれまで提案されていた。
NDSは、データソースでトレーニングされた専門家の混合物を使用して、各ソースと下流タスクの類似性を推定する。
SNDSは、中間データセットに近接して、データソースと下流タスクの両方を表現します。
- 参考スコア(独自算出の注目度): 70.06289658553675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Absence of large-scale labeled data in the practitioner's target domain can
be a bottleneck to applying machine learning algorithms in practice. Transfer
learning is a popular strategy for leveraging additional data to improve the
downstream performance, but finding the most relevant data to transfer from can
be challenging. Neural Data Server (NDS), a search engine that recommends
relevant data for a given downstream task, has been previously proposed to
address this problem. NDS uses a mixture of experts trained on data sources to
estimate similarity between each source and the downstream task. Thus, the
computational cost to each user grows with the number of sources. To address
these issues, we propose Scalable Neural Data Server (SNDS), a large-scale
search engine that can theoretically index thousands of datasets to serve
relevant ML data to end users. SNDS trains the mixture of experts on
intermediary datasets during initialization, and represents both data sources
and downstream tasks by their proximity to the intermediary datasets. As such,
computational cost incurred by SNDS users remains fixed as new datasets are
added to the server. We validate SNDS on a plethora of real world tasks and
find that data recommended by SNDS improves downstream task performance over
baselines. We also demonstrate the scalability of SNDS by showing its ability
to select relevant data for transfer outside of the natural image setting.
- Abstract(参考訳): 実践者の対象領域に大規模ラベル付きデータがないことは、実際に機械学習アルゴリズムを適用する際のボトルネックになり得る。
転送学習は、下流のパフォーマンスを改善するために追加データを活用する一般的な戦略であるが、最も関連するデータを見つけることは困難である。
特定の下流タスクに関連するデータを推奨する検索エンジンであるNeural Data Server(NDS)が、この問題に対処するためにこれまで提案されていた。
ndsはデータソースでトレーニングされた専門家の混合物を使用して、各ソースと下流タスクの類似度を見積もる。
これにより、各ユーザに対する計算コストはソース数に応じて増加する。
これらの問題に対処するために,我々は,数千のデータセットを理論的にインデックス化して,エンドユーザに関連するMLデータを提供する,大規模検索エンジンであるScalable Neural Data Server (SNDS)を提案する。
SNDSは、初期化中に中間データセットの専門家の混合物をトレーニングし、中間データセットに近接してデータソースと下流タスクの両方を表現する。
そのため、SNDSユーザによる計算コストは、サーバに新しいデータセットが追加されるにつれて固定されている。
我々は,SNDSが推奨するデータが,ベースラインよりもダウンストリームタスクのパフォーマンスを向上させることを確認する。
また,自然画像から外部に転送するための関連データを選択する能力を示すことにより,sndのスケーラビリティを実証する。
関連論文リスト
- How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - A Novel Neural Network-Based Federated Learning System for Imbalanced
and Non-IID Data [2.9642661320713555]
ほとんどの機械学習アルゴリズムは、様々なソースから収集される大量のデータに大きく依存している。
この問題に対処するため、研究者らはフェデレーション学習を導入し、クライアントデータのプライバシーを確保することによって予測モデルを学習した。
本研究では,ニューラルネットワークに基づくフェデレーション学習システムを提案する。
論文 参考訳(メタデータ) (2023-11-16T17:14:07Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - Outsourcing Training without Uploading Data via Efficient Collaborative
Open-Source Sampling [49.87637449243698]
従来のアウトソーシングでは、デバイスデータをクラウドサーバにアップロードする必要がある。
我々は、公開および異種ソースから収集された膨大なデータセットである、広く利用可能なオープンソースデータを活用することを提案する。
我々は,オープンソースデータからクラウドトレーニングのためのプロキシデータセットを構築するための,ECOS(Efficient Collaborative Open-source Sampling)と呼ばれる新しい戦略を開発した。
論文 参考訳(メタデータ) (2022-10-23T00:12:18Z) - Collaborative Self Organizing Map with DeepNNs for Fake Task Prevention
in Mobile Crowdsensing [26.6224977032229]
モバイルクラウドセンシング(Mobile Crowdsensing、MCS)は、さまざまなサービスプロバイダがデータを収集、処理、分析する方法を変革したセンシングパラダイムである。
データ中毒、クロッギングタスク攻撃、偽検知タスクなどの様々な脅威は、MCSシステムの性能に悪影響を及ぼす。
この作業では、教師なしの方法でトレーニングされたニューラルネットワークであるSelf Organizing Feature Map(SOFM)を使用して、データセット内の正当なデータを事前クラスタする。
論文 参考訳(メタデータ) (2022-02-17T04:56:28Z) - IADA: Iterative Adversarial Data Augmentation Using Formal Verification
and Expert Guidance [1.599072005190786]
本稿では,ニューラルネットワークモデルを学習するための反復的逆データ拡張フレームワークを提案する。
提案するフレームワークは,人工的な2Dデータセット,MNISTデータセット,人間の動作データセットに適用される。
学習モデルのロバスト性や精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-08-16T03:05:53Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。