論文の概要: Outsourcing Training without Uploading Data via Efficient Collaborative
Open-Source Sampling
- arxiv url: http://arxiv.org/abs/2210.12575v1
- Date: Sun, 23 Oct 2022 00:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:32:52.797698
- Title: Outsourcing Training without Uploading Data via Efficient Collaborative
Open-Source Sampling
- Title(参考訳): 効率的なオープンソースサンプリングによるデータのアップロードを伴わないアウトソーシングトレーニング
- Authors: Junyuan Hong, Lingjuan Lyu, Jiayu Zhou, Michael Spranger
- Abstract要約: 従来のアウトソーシングでは、デバイスデータをクラウドサーバにアップロードする必要がある。
我々は、公開および異種ソースから収集された膨大なデータセットである、広く利用可能なオープンソースデータを活用することを提案する。
我々は,オープンソースデータからクラウドトレーニングのためのプロキシデータセットを構築するための,ECOS(Efficient Collaborative Open-source Sampling)と呼ばれる新しい戦略を開発した。
- 参考スコア(独自算出の注目度): 49.87637449243698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep learning blooms with growing demand for computation and data
resources, outsourcing model training to a powerful cloud server becomes an
attractive alternative to training at a low-power and cost-effective end
device. Traditional outsourcing requires uploading device data to the cloud
server, which can be infeasible in many real-world applications due to the
often sensitive nature of the collected data and the limited communication
bandwidth. To tackle these challenges, we propose to leverage widely available
open-source data, which is a massive dataset collected from public and
heterogeneous sources (e.g., Internet images). We develop a novel strategy
called Efficient Collaborative Open-source Sampling (ECOS) to construct a
proximal proxy dataset from open-source data for cloud training, in lieu of
client data. ECOS probes open-source data on the cloud server to sense the
distribution of client data via a communication- and computation-efficient
sampling process, which only communicates a few compressed public features and
client scalar responses. Extensive empirical studies show that the proposed
ECOS improves the quality of automated client labeling, model compression, and
label outsourcing when applied in various learning scenarios.
- Abstract(参考訳): ディープラーニングが計算とデータリソースの需要が高まるにつれて、強力なクラウドサーバへのモデルトレーニングのアウトソーシングは、低消費電力でコスト効率のよいエンドデバイスでのトレーニングに代わる魅力的な選択肢になります。
従来のアウトソーシングではデバイスデータをクラウドサーバにアップロードする必要があるが、収集されたデータの敏感な性質と通信帯域幅の制限のため、多くの現実世界アプリケーションでは不可能である。
これらの課題に取り組むため,我々は,公開および異種ソース(インターネットイメージなど)から収集した膨大なデータセットである,広く利用可能なオープンソースデータを活用することを提案する。
我々は,クラウドトレーニングのためのオープンソースデータから,クライアントデータの代わりにプロキシデータセットを構築するためのECOS(Efficient Collaborative Open-source Sampling)と呼ばれる新しい戦略を開発した。
ecosは、圧縮された公開機能とクライアントのスカラー応答のみを通信する通信および計算効率のよいサンプリングプロセスを通じて、クライアントデータの分散を検出するために、クラウドサーバ上のオープンソースデータを調査する。
広範な実証研究により、ecosは様々な学習シナリオに適用することで、クライアントラベリング、モデル圧縮、ラベルアウトソーシングの自動化の品質を向上させることが示されている。
関連論文リスト
- One-Shot Collaborative Data Distillation [9.428116807615407]
大規模な機械学習トレーニングデータセットは、情報的合成データサンプルの小さなコレクションに蒸留することができる。
これらの合成セットは効率的なモデル学習をサポートし、データ共有の通信コストを低減する。
分散環境で合成セットを構築するための簡単な方法は、各クライアントがローカルデータ蒸留を行い、中央サーバでローカルデータ蒸留をマージできるようにすることである。
私たちはCollabDMと呼ばれる最初の共同データ蒸留技術を導入し、これはデータのグローバルな分布を捉え、クライアントとサーバ間の通信を1ラウンドだけ必要とします。
論文 参考訳(メタデータ) (2024-08-05T06:47:32Z) - OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-04T10:42:01Z) - CollaFuse: Navigating Limited Resources and Privacy in Collaborative Generative AI [5.331052581441263]
CollaFuseはスプリットラーニングにインスパイアされた新しいフレームワークだ。
共有サーバのトレーニングと推論を可能にし、クライアントの計算負担を軽減する。
エッジコンピューティングソリューションの設計、ヘルスケア研究、自動運転など、さまざまなアプリケーション分野に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-02-29T12:36:10Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Exploring One-shot Semi-supervised Federated Learning with A Pre-trained Diffusion Model [40.83058938096914]
我々は,フェデレート拡散にインスパイアされた半教師付き協調学習法であるFedDISCを提案する。
まず、ラベル付きサーバデータのプロトタイプを抽出し、これらのプロトタイプを用いてクライアントデータの擬似ラベルを予測する。
各カテゴリについて、クラスタセントロイドとドメイン固有の表現を計算し、それらの分布のセマンティックおよびスタイリスティックな情報を表す。
これらの表現はサーバに送信され、事前にトレーニングされたデータを使用して、クライアントの分布に応じて合成データセットを生成し、その上でグローバルモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-05-06T14:22:33Z) - FedNet2Net: Saving Communication and Computations in Federated Learning
with Model Growing [0.0]
フェデレート・ラーニング(Federated Learning, FL)は、最近開発された機械学習の分野である。
本稿では「モデル成長」の概念に基づく新しいスキームを提案する。
提案手法は3つの標準ベンチマークで広範囲に検証され、通信とクライアントの計算の大幅な削減を実現することが示されている。
論文 参考訳(メタデータ) (2022-07-19T21:54:53Z) - Scalable Neural Data Server: A Data Recommender for Transfer Learning [70.06289658553675]
転送学習は、下流のパフォーマンスを改善するために追加データを活用する一般的な戦略である。
Nerve Data Server (NDS)は、特定の下流タスクに関連するデータを推奨する検索エンジンで、この問題に対処するためにこれまで提案されていた。
NDSは、データソースでトレーニングされた専門家の混合物を使用して、各ソースと下流タスクの類似性を推定する。
SNDSは、中間データセットに近接して、データソースと下流タスクの両方を表現します。
論文 参考訳(メタデータ) (2022-06-19T12:07:32Z) - Data Selection for Efficient Model Update in Federated Learning [0.07614628596146598]
本稿では,グローバルモデルのトレーニングに必要なローカルデータの量を削減することを提案する。
本手法では, 局所データの特徴により敏感な部分と, 一般特徴抽出のための下位部分と, 上位部分とにモデルを分割する。
実験の結果,クライアントデータの特徴をグローバルモデルに転送できる地域データは1%未満であることがわかった。
論文 参考訳(メタデータ) (2021-11-05T14:07:06Z) - Federated Multi-Target Domain Adaptation [99.93375364579484]
フェデレートされた学習手法により、プライバシを保護しながら、分散ユーザデータ上で機械学習モデルをトレーニングすることが可能になります。
分散クライアントデータがラベル付けされず、集中型ラベル付きデータセットがサーバ上で利用可能となる、より実用的なシナリオを考えます。
本稿では,新しい課題に対処する効果的なDualAdapt法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:53:05Z) - Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without
Sharing Private Information [55.866673486753115]
プライバシーとセキュリティを守るために拡張可能で弾力性のある学習フレームワークを提案します。
提案するフレームワークは分散Asynchronized Discriminator Generative Adrial Networks (AsynDGAN) である。
論文 参考訳(メタデータ) (2020-12-15T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。