論文の概要: Online Feature Selection for Efficient Learning in Networked Systems
- arxiv url: http://arxiv.org/abs/2112.08253v1
- Date: Wed, 15 Dec 2021 16:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 18:18:56.618050
- Title: Online Feature Selection for Efficient Learning in Networked Systems
- Title(参考訳): ネットワークシステムにおける効率的な学習のためのオンライン特徴選択
- Authors: Xiaoxuan Wang, Rolf Stadler
- Abstract要約: データ駆動エンジニアリングのための現在のAI/MLメソッドは、主にオフラインでトレーニングされたモデルを使用する。
多数の利用可能なデータソースから小さな特徴セットを選択するオンライン安定特徴セットアルゴリズム(OSFS)を提案する。
OSFSは、調査されたすべてのデータセットに対して、1~3桁の規模で設定された機能のサイズを大幅に削減する。
- 参考スコア(独自算出の注目度): 3.13468877208035
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current AI/ML methods for data-driven engineering use models that are mostly
trained offline. Such models can be expensive to build in terms of
communication and computing cost, and they rely on data that is collected over
extended periods of time. Further, they become out-of-date when changes in the
system occur. To address these challenges, we investigate online learning
techniques that automatically reduce the number of available data sources for
model training. We present an online algorithm called Online Stable Feature Set
Algorithm (OSFS), which selects a small feature set from a large number of
available data sources after receiving a small number of measurements. The
algorithm is initialized with a feature ranking algorithm, a feature set
stability metric, and a search policy. We perform an extensive experimental
evaluation of this algorithm using traces from an in-house testbed and from a
data center in operation. We find that OSFS achieves a massive reduction in the
size of the feature set by 1-3 orders of magnitude on all investigated
datasets. Most importantly, we find that the accuracy of a predictor trained on
a OSFS-produced feature set is somewhat better than when the predictor is
trained on a feature set obtained through offline feature selection. OSFS is
thus shown to be effective as an online feature selection algorithm and robust
regarding the sample interval used for feature selection. We also find that,
when concept drift in the data underlying the model occurs, its effect can be
mitigated by recomputing the feature set and retraining the prediction model.
- Abstract(参考訳): データ駆動エンジニアリングのための現在のAI/MLメソッドは、主にオフラインでトレーニングされたモデルを使用する。
このようなモデルは、通信や計算コストの観点から構築するコストが高く、長期にわたって収集されるデータに依存する可能性がある。
さらに、システム変更が発生すると時代遅れになる。
これらの課題に対処するために,モデルトレーニングのための利用可能なデータソース数を自動削減するオンライン学習手法について検討する。
このアルゴリズムは,少数の測定を受信した後,多数の利用可能なデータソースから小さな特徴セットを選択する。
アルゴリズムは、特徴ランク付けアルゴリズム、特徴セット安定度、検索ポリシーで初期化される。
本アルゴリズムは,社内テストベッドからのトレースと運用中のデータセンタからのトレースを用いて,広範な実験評価を行う。
その結果,OSFS は全データセットに対して 1-3 桁の規模で設定された特徴量を大幅に削減できることがわかった。
最も重要なことは、OSFSが生成する特徴セットでトレーニングされた予測器の精度が、オフライン特徴選択によって得られた特徴セットで予測器をトレーニングした時よりも幾分良いことである。
したがって、OSFSはオンラインの特徴選択アルゴリズムとして有効であり、特徴選択に使用されるサンプル間隔に関して堅牢であることが示されている。
また,モデルの基礎となるデータにコンセプトドリフトが発生すると,特徴集合を再計算し,予測モデルを再学習することで,その効果を緩和できることがわかった。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Unveiling the Power of Sparse Neural Networks for Feature Selection [60.50319755984697]
スパースニューラルネットワーク(SNN)は、効率的な特徴選択のための強力なツールとして登場した。
動的スパーストレーニング(DST)アルゴリズムで訓練されたSNNは、平均して50%以上のメモリと55%以上のFLOPを削減できることを示す。
以上の結果から,DSTアルゴリズムで訓練したSNNによる特徴選択は,平均して50ドル以上のメモリと55%のFLOPを削減できることがわかった。
論文 参考訳(メタデータ) (2024-08-08T16:48:33Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Federated Feature Selection for Cyber-Physical Systems of Systems [0.3609538870261841]
自動運転車の一群は、データ伝送を99%まで減らし、無視できない情報損失を抑えるために利用する、最適な機能セットに関するコンセンサスを見つける。
以上の結果から、自動運転車の車両群は、データ伝送を99%まで減らし、無視できる情報損失を減らし、最適な機能セットにコンセンサスを見出すことができた。
論文 参考訳(メタデータ) (2021-09-23T12:16:50Z) - Online Feature Screening for Data Streams with Concept Drift [8.807587076209566]
本研究は分類データセットに焦点を当てる。
実験の結果,提案手法はオフライン版と同じ特徴を高速かつ少ないストレージで生成できることがわかった。
その結果, 統合モデル適応によるオンラインスクリーニング手法は, コンセプトドリフト特性を有するデータストリーム上でのモデル適応よりも, 真の特徴検出率が高いことがわかった。
論文 参考訳(メタデータ) (2021-04-07T03:16:15Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。
以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-04T19:21:37Z) - Online feature selection for rapid, low-overhead learning in networked
systems [0.0]
我々は、多数の利用可能なデータソースから小さな機能セットを選択する、OSFSと呼ばれるオンラインアルゴリズムを提案する。
OSFSは、データソース数を桁違いに削減するために、数百の計測を必要とする。
論文 参考訳(メタデータ) (2020-10-28T12:00:42Z) - An Online Learning Algorithm for a Neuro-Fuzzy Classifier with
Mixed-Attribute Data [9.061408029414455]
General Fuzzy min-max Neural Network (GFMMNN) は、データ分類のための効率的な神経ファジィシステムの一つである。
本稿ではGFMMNNのための拡張オンライン学習アルゴリズムを提案する。
提案手法は連続的特徴と分類的特徴の両方でデータセットを処理できる。
論文 参考訳(メタデータ) (2020-09-30T13:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。