論文の概要: Multi-Worker Selection based Distributed Swarm Learning for Edge IoT with Non-i.i.d. Data
- arxiv url: http://arxiv.org/abs/2509.18367v1
- Date: Mon, 22 Sep 2025 19:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.552778
- Title: Multi-Worker Selection based Distributed Swarm Learning for Edge IoT with Non-i.i.d. Data
- Title(参考訳): 非i.d.データを用いたエッジIoTのためのマルチワーカー選択に基づく分散Swarm学習
- Authors: Zhuoyu Yao, Yue Wang, Songyang Zhang, Yingshu Li, Zhipeng Cai, Zhi Tian,
- Abstract要約: 非独立で同一に分散した(非i.d.)データは、マルチアクセスエッジコンピューティングにおいて大きな課題となる。
本稿では、まず、DSLフレームワーク下での非i.d.データセットの影響を測定することによって、データの異質性について検討する。
これにより、分散異種データを効果的に扱うM-と呼ばれるDSLの新しいマルチワーカー選択設計がモチベーションとなる。
- 参考スコア(独自算出の注目度): 43.34261360161892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in distributed swarm learning (DSL) offer a promising paradigm for edge Internet of Things. Such advancements enhance data privacy, communication efficiency, energy saving, and model scalability. However, the presence of non-independent and identically distributed (non-i.i.d.) data pose a significant challenge for multi-access edge computing, degrading learning performance and diverging training behavior of vanilla DSL. Further, there still lacks theoretical guidance on how data heterogeneity affects model training accuracy, which requires thorough investigation. To fill the gap, this paper first study the data heterogeneity by measuring the impact of non-i.i.d. datasets under the DSL framework. This then motivates a new multi-worker selection design for DSL, termed M-DSL algorithm, which works effectively with distributed heterogeneous data. A new non-i.i.d. degree metric is introduced and defined in this work to formulate the statistical difference among local datasets, which builds a connection between the measure of data heterogeneity and the evaluation of DSL performance. In this way, our M-DSL guides effective selection of multiple works who make prominent contributions for global model updates. We also provide theoretical analysis on the convergence behavior of our M-DSL, followed by extensive experiments on different heterogeneous datasets and non-i.i.d. data settings. Numerical results verify performance improvement and network intelligence enhancement provided by our M-DSL beyond the benchmarks.
- Abstract(参考訳): 分散Swarm Learning(DSL)の最近の進歩は、エッジIoT(Internet of Things)に有望なパラダイムを提供する。
このような進歩により、データのプライバシ、通信効率、省エネ、モデルのスケーラビリティが向上する。
しかし、非独立で同一に分散したデータの存在は、マルチアクセスエッジコンピューティング、学習性能の劣化、バニラDSLの訓練行動の多様化に重大な課題をもたらす。
さらに、データの不均一性がモデルのトレーニング精度にどのように影響するかに関する理論的ガイダンスがまだ存在しないため、徹底的な調査が必要である。
このギャップを埋めるために、本論文では、DSLフレームワーク下での非i.d.データセットの影響を計測することにより、データ不均一性を最初に研究する。
これにより、分散異種データを効果的に扱うM-DSLアルゴリズムと呼ばれる、DSLのための新しいマルチワーカー選択設計がモチベーションとなる。
局所的なデータセット間の統計的差を定式化するために、新しい非等等級計量を導入、定義し、データの不均一度の測定とDSLの性能評価との接続を構築する。
このようにして、我々のM-DSLは、グローバルモデル更新に顕著な貢献をする複数の作品の効率的な選択をガイドします。
また、M-DSLの収束挙動に関する理論的分析を行い、その後、異なる異種データセットと非i.d.データ設定に関する広範な実験を行った。
M-DSLによる性能改善とネットワークインテリジェンス向上をベンチマークを超えて検証した。
関連論文リスト
- Federated Online Learning for Heterogeneous Multisource Streaming Data [0.0]
フェデレートラーニングは、プライバシの懸念の下で分散マルチソースデータ分析に不可欠なパラダイムとして登場した。
本稿では,分散マルチソースストリーミングデータ解析のためのFOL手法を提案する。
論文 参考訳(メタデータ) (2025-08-08T19:08:53Z) - Data Uniformity Improves Training Efficiency and More, with a Convergence Framework Beyond the NTK Regime [9.749891245059596]
より均一に分散したデータを選択することで、トレーニング効率が向上し、性能が向上することを示す。
具体的には、より均一な(バイアスのない)分布が、データポイント間の最小ペア距離を大きくすることを示す。
理論的には、ニューラルネットワークの近似誤差は、h_min$が増加するにつれて減少する。
論文 参考訳(メタデータ) (2025-06-30T17:58:30Z) - On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Data Quality in Imitation Learning [15.939363481618738]
ロボット工学のオフライン学習では、インターネットのスケールデータがないだけで、高品質なデータセットが必要なのです。
これは特に、専門家によるデモンストレーションを用いたロボット学習のためのサンプル効率のよいパラダイムである模倣学習(IL)において当てはまる。
本研究では,分散シフトのレンズによる模倣学習のためのデータ品質の形式化に向けた第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-06-04T18:48:32Z) - Continual Learning with Optimal Transport based Mixture Model [17.398605698033656]
成熟最適輸送理論(OT-MM)の優れた性質に基づくオンライン混合モデル学習手法を提案する。
提案手法は,現在の最先端のベースラインを大きく上回ることができる。
論文 参考訳(メタデータ) (2022-11-30T06:40:29Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。