Fugu-MT 論文翻訳(概要): Dictionary-Learning-Based Data Pruning for System Identification

論文の概要: Dictionary-Learning-Based Data Pruning for System Identification

arxiv url: http://arxiv.org/abs/2502.11484v1
Date: Mon, 17 Feb 2025 06:38:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.12183
Title: Dictionary-Learning-Based Data Pruning for System Identification
Title（参考訳）: 辞書学習に基づくシステム同定のためのデータ抽出
Authors: Tingna Wang, Sikai Zhang, Limin Sun,
Abstract要約: 本稿では,サンプルの冗長性を低減するために,(ミニバッチ)FastCanと呼ばれる新しいデータプルーニング手法を提案する。時系列データは、辞書学習を通じて原子と呼ばれるいくつかの代表的なサンプルによって表現される。その結果,提案手法はランダムプルーニング法よりも有意に優れていることがわかった。
参考スコア（独自算出の注目度）: 5.31297066565831
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: System identification is normally involved in augmenting time series data by time shifting and nonlinearisation (via polynomial basis), which introduce redundancy both feature-wise and sample-wise. Many research works focus on reducing redundancy feature-wise, while less attention is paid to sample-wise redundancy. This paper proposes a novel data pruning method, called (mini-batch) FastCan, to reduce sample-wise redundancy based on dictionary learning. Time series data is represented by some representative samples, called atoms, via dictionary learning. The useful samples are selected based on their correlation with the atoms. The method is tested on one simulated dataset and two benchmark datasets. The R-squared between the coefficients of models trained on the full and the coefficients of models trained on pruned datasets is adopted to evaluate the performance of data pruning methods. It is found that the proposed method significantly outperforms the random pruning method.
Abstract（参考訳）: システム同定は通常、時間シフトと非線形化(多項式ベース)によって時系列データを増大させ、特徴量とサンプル値の両方の冗長性を導入する。多くの研究は冗長性を減らすことに重点を置いているが、サンプルの冗長性には注意が払われていない。本稿では,辞書学習に基づくサンプルの冗長性を低減するため,FastCanと呼ばれる新しいデータ解析手法を提案する。時系列データは、辞書学習を通じて原子と呼ばれるいくつかの代表的なサンプルによって表現される。有用なサンプルは、原子との相関に基づいて選択される。 1つのシミュレーションデータセットと2つのベンチマークデータセットでテストする。フルでトレーニングされたモデルの係数と、プレナードデータセットでトレーニングされたモデルの係数の2乗法を用いて、データプルーニング法の性能を評価する。その結果,提案手法はランダムプルーニング法よりも有意に優れていることがわかった。

関連論文リスト

Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文参考訳（メタデータ） (2024-10-14T15:48:09Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文参考訳（メタデータ） (2023-12-03T05:52:30Z)
Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。 FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文参考訳（メタデータ） (2023-09-29T15:50:14Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Exploring Data Redundancy in Real-world Image Classification through Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文参考訳（メタデータ） (2023-06-25T03:31:05Z)
Repeated Random Sampling for Minimizing the Time-to-Accuracy of Learning [28.042568086423298]
ランダム・サブセットの繰り返しサンプリング(RS2)は、強力だが見落とされたランダムサンプリング戦略である。我々は、ImageNetを含む4つのデータセットにわたる30の最先端データプルーニングとデータ蒸留法に対してRS2をテストする。その結果,RS2は既存の手法に比べて時間と精度を著しく低下させることがわかった。
論文参考訳（メタデータ） (2023-05-28T20:38:13Z)
Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文参考訳（メタデータ） (2022-07-21T08:16:31Z)
Dictionary Learning Using Rank-One Atomic Decomposition (ROAD) [6.367823813868024]
辞書学習は、訓練データを疎に表現できる辞書を求めることを目的としている。 Roadは、合成データと実データの両方で、他のベンチマークアルゴリズムより優れている。
論文参考訳（メタデータ） (2021-10-25T10:29:52Z)
SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。 KRRのストリーミング版であるStreaMRAKを提案する。本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文参考訳（メタデータ） (2021-08-23T21:03:09Z)
Learning from Incomplete Features by Simultaneous Training of Neural Networks and Sparse Coding [24.3769047873156]
本稿では,不完全な特徴を持つデータセット上で分類器を訓練する問題に対処する。私たちは、各データインスタンスで異なる機能のサブセット(ランダムまたは構造化)が利用できると仮定します。新しい教師付き学習法が開発され、サンプルあたりの機能のサブセットのみを使用して、一般的な分類器を訓練する。
論文参考訳（メタデータ） (2020-11-28T02:20:39Z)
Evaluating representations by the complexity of learning low-loss predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文参考訳（メタデータ） (2020-09-15T22:06:58Z)
Automatic Recall Machines: Internal Replay, Continual Learning and the Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文参考訳（メタデータ） (2020-06-22T15:07:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。