論文の概要: Benchmarking of a new data splitting method on volcanic eruption data
- arxiv url: http://arxiv.org/abs/2410.06306v1
- Date: Tue, 8 Oct 2024 19:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 06:29:17.031949
- Title: Benchmarking of a new data splitting method on volcanic eruption data
- Title(参考訳): 火山噴火データにおける新しいデータ分割手法のベンチマーク
- Authors: Simona Reale, Pietro Di Stasio, Francesco Mauro, Alessandro Sebastianelli, Paolo Gamba, Silvia Liberata Ullo,
- Abstract要約: 反復的な手順は、これらの2つの部分の累積ヒストグラムで計算された相同性指数を用いて、火山噴火の入力データセットを2つの部分に分割する。
提案したモデルでは,エポック数がわずかに増加し,最高の性能が得られる。
各モデルはオーバーフィッティングに適する早期停止を訓練し, 提案手法のエポック数の増加は, 早期停止がオーバーフィッティングを検知しないことを実証した。
- 参考スコア(独自算出の注目度): 38.85972012552084
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, a novel method for data splitting is presented: an iterative procedure divides the input dataset of volcanic eruption, chosen as the proposed use case, into two parts using a dissimilarity index calculated on the cumulative histograms of these two parts. The Cumulative Histogram Dissimilarity (CHD) index is introduced as part of the design. Based on the obtained results the proposed model in this case, compared to both Random splitting and K-means implemented over different configurations, achieves the best performance, with a slightly higher number of epochs. However, this demonstrates that the model can learn more deeply from the input dataset, which is attributable to the quality of the splitting. In fact, each model was trained with early stopping, suitable in case of overfitting, and the higher number of epochs in the proposed method demonstrates that early stopping did not detect overfitting, and consequently, the learning was optimal.
- Abstract(参考訳): 本稿では, 火山噴火の入力データセットを2つの部分に分割し, この2つの部分の累積ヒストグラムから算出した相同性指数を用いて分割する手法を提案する。
この設計の一環として、累積ヒストグラム異性度(CHD)指数が導入された。
得られた結果から,RandomスプリッティングとK平均の両方が異なる構成で実装されているのに対し,提案モデルでは,エポック数がわずかに増加し,最高の性能が得られる。
しかし、これはモデルが入力データセットからより深く学習できることを示しており、これは分割の品質に起因する。
実際、各モデルはオーバーフィッティングに適する早期停止を訓練し、提案手法のエポック数の増加は、早期停止がオーバーフィッティングを検知しないことを示し、その結果、学習が最適であることを示した。
関連論文リスト
- Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Dataset Distillation Meets Provable Subset Selection [14.158845925610438]
データセット蒸留は、大規模なトレーニングデータセットを、その性能を維持する小さな合成データセットに圧縮するために提案されている。
本稿では, 重要点を特定し, 余剰点を除去することにより, 蒸留セットを初期化するための, 実証可能なサンプリングベースアプローチを提案する。
さらに,次のバッチをランダムにサンプリングするのではなく,''サンプル点の蒸留セットをトレーニングすることで,データセットの蒸留とデータサブセット選択のアイデアを融合する。
論文 参考訳(メタデータ) (2023-07-16T15:58:19Z) - Impact of PolSAR pre-processing and balancing methods on complex-valued
neural networks segmentation tasks [9.6556424340252]
複素値ニューラルネットワーク(CVNN)を用いたポラリメトリック合成開口レーダ(PolSAR)のセマンティックセグメンテーションについて検討する。
6つのモデルアーキテクチャ,3つの複素値,それぞれの実等価モデルについて,両手法を徹底的に比較する。
本稿では、このギャップを減らし、全ての入力表現、モデル、データセット前処理の結果を実行するための2つの方法を提案する。
論文 参考訳(メタデータ) (2022-10-28T12:49:43Z) - Dataset Distillation using Neural Feature Regression [32.53291298089172]
ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。
FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。
我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-01T19:02:06Z) - Task Affinity with Maximum Bipartite Matching in Few-Shot Learning [28.5184196829547]
本稿では,1つのタスクの知識を活用して,別のタスクを学習する複雑性を表現するための非対称親和性スコアを提案する。
特に、このスコアを用いて、テストデータに関連するトレーニングデータラベルを見つけ、発見した関連するデータを活用して、いくつかのショットモデルをエピソード的に微調整する。
論文 参考訳(メタデータ) (2021-10-05T23:15:55Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - A Bayesian Approach with Type-2 Student-tMembership Function for T-S
Model Identification [47.25472624305589]
2型ファジィセットに基づくファジィック回帰クラスタリングは,非スパースデータに対して顕著な結果を示した。
ファジック回帰モデルのための革新的アーキテクチャを示し、スパースデータモデリングのために設計された新しい学生分布に基づく会員関数を提案する。
論文 参考訳(メタデータ) (2020-09-02T05:10:13Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。