論文の概要: A Two-Stage Data Selection Framework for Data-Efficient Model Training on Edge Devices
- arxiv url: http://arxiv.org/abs/2505.16563v1
- Date: Thu, 22 May 2025 11:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.263563
- Title: A Two-Stage Data Selection Framework for Data-Efficient Model Training on Edge Devices
- Title(参考訳): エッジデバイス上でのデータ効率向上のための2段階データ選択フレームワーク
- Authors: Chen Gong, Rui Xing, Zhenzhe Zheng, Fan Wu,
- Abstract要約: 現在のオンデバイスモデルのトレーニングは、低いトレーニングスループット、限られたストレージ、さまざまなデータの重要性によって妨げられています。
モデル学習のためのストリーミングデータから,最も重要なデータバッチを選択するための2段階データ選択フレームワークであるsf Titanを提案する。
sf Titanは、トレーニング時間の最大43%の削減と、マイナーシステムのオーバーヘッドを伴う最終的な精度の6.2%の向上を実現している。
- 参考スコア(独自算出の注目度): 18.853357902416832
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The demand for machine learning (ML) model training on edge devices is escalating due to data privacy and personalized service needs. However, we observe that current on-device model training is hampered by the under-utilization of on-device data, due to low training throughput, limited storage and diverse data importance. To improve data resource utilization, we propose a two-stage data selection framework {\sf Titan} to select the most important data batch from streaming data for model training with guaranteed efficiency and effectiveness. Specifically, in the first stage, {\sf Titan} filters out a candidate dataset with potentially high importance in a coarse-grained manner.In the second stage of fine-grained selection, we propose a theoretically optimal data selection strategy to identify the data batch with the highest model performance improvement to current training round. To further enhance time-and-resource efficiency, {\sf Titan} leverages a pipeline to co-execute data selection and model training, and avoids resource conflicts by exploiting idle computing resources. We evaluate {\sf Titan} on real-world edge devices and three representative edge computing tasks with diverse models and data modalities. Empirical results demonstrate that {\sf Titan} achieves up to $43\%$ reduction in training time and $6.2\%$ increase in final accuracy with minor system overhead, such as data processing delay, memory footprint and energy consumption.
- Abstract(参考訳): エッジデバイス上での機械学習(ML)モデルトレーニングの需要は、データのプライバシとパーソナライズされたサービスニーズのために増大している。
しかし,現在のオンデバイスモデルトレーニングは,トレーニングスループットの低下,ストレージの制限,データの重要度の向上などにより,オンデバイスデータの利用不足によって妨げられている。
データ資源の利用性を向上させるため,ストリーミングデータから最も重要なデータバッチを選択し,効率と有効性を保証したモデルトレーニングを行うための2段階のデータ選択フレームワーク {\sf Titan} を提案する。
具体的には、第1段階では、粗粒度で潜在的に重要度の高い候補データセットをフィルタリングし、第2段階では、理論上最適なデータ選択戦略を提案し、現在のトレーニングラウンドに最高のモデルパフォーマンス改善を施したデータバッチを識別する。
時間とリソースの効率をさらに高めるために、 {\sf Titan} はパイプラインを活用してデータ選択とモデルトレーニングを共同実行し、アイドルコンピューティングリソースを活用することでリソースの衝突を回避する。
実世界のエッジデバイス上での {\sf Titan} の評価と,多様なモデルとデータモダリティを備えたエッジコンピューティングの3つの代表的なタスクについて述べる。
実証的な結果は、データ処理の遅延、メモリフットプリント、エネルギー消費など、小さなシステムのオーバーヘッドに対して、トレーニング時間の最大43.%の削減と最終精度の最大6.2.%の上昇を達成していることを示している。
関連論文リスト
- Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning [40.19639581728674]
タスク固有のデータに対する細調整された大規模言語モデル(LLM)は、その効果的なデプロイメントには不可欠である。
データウィスペラ (Data Whisperer) は,数発のインコンテクスト学習とモデルによる微調整を併用した,効率的でトレーニング不要なアテンションベースの手法である。
Data Whispererは、Llama-3-8B-インストラクトモデルの完全なGSM8Kデータセットよりも優れたパフォーマンスを実現し、データの10%しか使用せず、既存のメソッドよりも3.1ポイントの改善と7.4$times$スピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-18T03:10:00Z) - Federated Learning with Workload Reduction through Partial Training of Client Models and Entropy-Based Data Selection [3.9981390090442694]
我々は,エッジデバイス上でのトレーニング負荷を削減するために,部分的クライアントモデルのファインチューニングとエントロピーベースのデータ選択を組み合わせた新しいアプローチであるFedFT-EDSを提案する。
実験の結果,FedFT-EDSは50%のユーザデータしか使用せず,ベースライン法,FedAvg,FedProxに比べてグローバルモデルの性能が向上していることがわかった。
FedFT-EDSは、クライアントでのトレーニング時間の3分の1を使用して、クライアントの学習効率を最大3倍改善する。
論文 参考訳(メタデータ) (2024-12-30T22:47:32Z) - YuLan-Mini: An Open Data-efficient Language Model [111.02822724500552]
2.42Bパラメータを持つ高い能力を持つベースモデルであるYuLan-Miniは、同様のパラメータスケールのモデルで上位層のパフォーマンスを実現する。
注目すべきは、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界主導のモデルに匹敵するパフォーマンスを達成することだ。
論文 参考訳(メタデータ) (2024-12-23T17:47:53Z) - TextGram: Towards a better domain-adaptive pretraining [0.3769303106863454]
NLPでは、事前学習は大量のテキストデータを使用して下流タスクを実行するための事前知識を得る。
ドメイン適応型データ選択法であるTextGramを提案する。
提案手法は,他の選択手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-04-28T15:44:57Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。