論文の概要: StreamFP: Learnable Fingerprint-guided Data Selection for Efficient Stream Learning
- arxiv url: http://arxiv.org/abs/2406.07590v2
- Date: Sat, 04 Jan 2025 04:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:04:19.499033
- Title: StreamFP: Learnable Fingerprint-guided Data Selection for Efficient Stream Learning
- Title(参考訳): StreamFP: 効率的なストリーム学習のための学習可能なフィンガープリント誘導データ選択
- Authors: Tongjun Shi, Shuhao Zhang, Binbin Chen, Bingsheng He,
- Abstract要約: ストリーム学習(SL)は、継続的に進化するデータに迅速に適応できるモデルを必要とする。
従来のルールベースのデータ選択手法は、ストリーミングデータの動的な性質に対応するのに苦労する。
データ分散の変化に対処する最近のアプローチは、速いペースの環境での有効性を制限する課題に直面している。
- 参考スコア(独自算出の注目度): 26.832497051355553
- License:
- Abstract: Stream Learning (SL) requires models that can quickly adapt to continuously evolving data, posing significant challenges in both computational efficiency and learning accuracy. Effective data selection is critical in SL to ensure a balance between information retention and training efficiency. Traditional rule-based data selection methods struggle to accommodate the dynamic nature of streaming data, highlighting the necessity for innovative solutions that effectively address these challenges. Recent approaches to handling changing data distributions face challenges that limit their effectiveness in fast-paced environments. In response, we propose StreamFP, a novel approach that uniquely employs dynamic, learnable parameters called fingerprints to enhance data selection efficiency and adaptability in stream learning. StreamFP optimizes coreset selection through its unique fingerprint-guided mechanism for efficient training while ensuring robust buffer updates that adaptively respond to data dynamics, setting it apart from existing methods in stream learning. Experimental results demonstrate that StreamFP outperforms state-of-the-art methods by achieving accuracy improvements of 15.99%, 29.65%, and 51.24% compared to baseline models across varying data arrival rates, alongside a training throughput increase of 4.6x.
- Abstract(参考訳): ストリーム学習(SL)は、継続的に進化するデータに迅速に適応できるモデルを必要とし、計算効率と学習精度の両方において重大な課題を提起する。
SLでは、情報保持とトレーニング効率のバランスを確保するために効果的なデータ選択が重要である。
従来のルールベースのデータ選択手法は、ストリーミングデータの動的な性質に対応するのに苦労しており、これらの課題に効果的に対処する革新的なソリューションの必要性を強調している。
データ分散の変化に対処する最近のアプローチは、速いペースの環境での有効性を制限する課題に直面している。
そこで本研究では,データ選択効率とストリーム学習適応性を向上させるために,指紋と呼ばれる動的で学習可能なパラメータを一意に用いたStreamFPを提案する。
StreamFPは、独自の指紋認証機構を通じてコアセットの選択を最適化し、効率的なトレーニングを可能にし、ロバストなバッファ更新を確保して、データダイナミクスに適応的に応答し、ストリーム学習の既存の方法とは分離する。
実験の結果、StreamFPは15.99%、29.65%、および51.24%の精度向上を達成し、トレーニングスループットが4.6倍に向上していることが示されている。
関連論文リスト
- A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。
伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。
ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文 参考訳(メタデータ) (2024-11-23T17:35:23Z) - SUDS: A Strategy for Unsupervised Drift Sampling [0.5437605013181142]
監視された機械学習は、データ分散が時間とともに変化するコンセプトドリフトに遭遇し、パフォーマンスが低下する。
本稿では,既存のドリフト検出アルゴリズムを用いて,同種サンプルを選択する新しい手法であるドリフトサンプリング戦略(SUDS)を提案する。
本研究は, 動的環境におけるラベル付きデータ利用の最適化におけるSUDSの有効性を示すものである。
論文 参考訳(メタデータ) (2024-11-05T10:55:29Z) - Sample-efficient Imitative Multi-token Decision Transformer for Real-world Driving [18.34685506480288]
我々はSimDT(SimDT)を提案する。
SimDTでは、マルチトークン予測、オンライン模倣学習パイプライン、シーケンスモデリング強化学習への優先的なエクスペリエンスリプレイが導入されている。
結果は、Waymaxベンチマークのオープンループとクローズループ設定の両方で、人気のある模倣と強化学習アルゴリズムを上回る。
論文 参考訳(メタデータ) (2024-06-18T14:27:14Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - FedDUAP: Federated Learning with Dynamic Update and Adaptive Pruning
Using Shared Data on the Server [64.94942635929284]
フェデレーテッド・ラーニング(FL)は2つの重要な課題、すなわち限られた計算資源と訓練効率の低下に悩まされている。
本稿では,サーバ上の不感なデータとエッジデバイスの分散データを利用する新しいFLフレームワークであるFedDUAPを提案する。
提案するFLモデルであるFedDUAPは,2つの元の手法を統合することで,精度(最大4.8%),効率(最大2.8倍),計算コスト(最大61.9%)において,ベースラインアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-04-25T10:00:00Z) - Towards Heterogeneous Clients with Elastic Federated Learning [45.2715985913761]
フェデレーション学習では、エッジプロセッサやデータウェアハウスなどのデバイスやデータサイロ上で、データをローカルに保ちながら、マシンラーニングモデルをトレーニングする。
本稿では,不均一性に対処する非バイアスアルゴリズムであるElastic Federated Learning (EFL)を提案する。
上流と下流の両方の通信を圧縮する効率的かつ効率的なアルゴリズムである。
論文 参考訳(メタデータ) (2021-06-17T12:30:40Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。