論文の概要: Towards High-Performance Exploratory Data Analysis (EDA) Via Stable
Equilibrium Point
- arxiv url: http://arxiv.org/abs/2306.04425v1
- Date: Wed, 7 Jun 2023 13:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 14:21:28.425676
- Title: Towards High-Performance Exploratory Data Analysis (EDA) Via Stable
Equilibrium Point
- Title(参考訳): 安定平衡点を考慮した高性能探査データ解析(EDA)に向けて
- Authors: Yuxuan Song, Yongyu Wang
- Abstract要約: 我々は,EDAの効率とソリューション品質を改善するための安定平衡点(SEP)ベースのフレームワークを導入する。
提案手法の非常にユニークな特性は、SEPがデータセットのクラスタリング特性を直接符号化することである。
- 参考スコア(独自算出の注目度): 5.825190876052149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploratory data analysis (EDA) is a vital procedure for data science
projects. In this work, we introduce a stable equilibrium point (SEP) - based
framework for improving the efficiency and solution quality of EDA. By
exploiting the SEPs to be the representative points, our approach aims to
generate high-quality clustering and data visualization for large-scale data
sets. A very unique property of the proposed method is that the SEPs will
directly encode the clustering properties of data sets. Compared with prior
state-of-the-art clustering and data visualization methods, the proposed
methods allow substantially improving computing efficiency and solution quality
for large-scale data analysis tasks.
- Abstract(参考訳): 探索的データ分析(EDA)は、データサイエンスプロジェクトにとって重要な手順である。
本研究では, 安定平衡点(sep)ベースのフレームワークを導入し, edaの効率と解の質を向上させる。
SEPを代表点として活用することにより,大規模データセットに対して高品質なクラスタリングとデータの可視化を実現する。
提案手法の非常にユニークな特性は、SEPがデータセットのクラスタリング特性を直接符号化することである。
従来のクラスタリングおよびデータ可視化手法と比較して,提案手法は大規模データ解析タスクの計算効率と解品質を大幅に向上させる。
関連論文リスト
- Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - A Comparative Evaluation of FedAvg and Per-FedAvg Algorithms for
Dirichlet Distributed Heterogeneous Data [2.5507252967536522]
我々は、生データを共有せずにデバイス上で分散モデルトレーニングを可能にする機械学習のパラダイムであるフェデレートラーニング(FL)について検討する。
フェデレート平均化(FedAvg)とパーフェデレーション平均化(Per-FedAvg)の2つの戦略を比較した。
この結果は、分散環境でのより効率的かつ効率的な機械学習戦略の開発に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-09-03T21:33:15Z) - DBGSA: A Novel Data Adaptive Bregman Clustering Algorithm [2.0232038310495435]
本稿では,データセットの初期選択とロバスト性に非常に敏感なクラスタリングアルゴリズムを提案する。
4つのシミュレーションデータセットと6つの実データセットで大規模な実験を行う。
その結果,アルゴリズムの精度は平均63.8%向上した。
論文 参考訳(メタデータ) (2023-07-25T16:37:09Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Adaptive Weighted Multiview Kernel Matrix Factorization with its
application in Alzheimer's Disease Analysis -- A clustering Perspective [3.3843930118195407]
そこで本研究では,各ビューの重みを適応的に学習することのできる,様々なモダリティ/ビューからのデータを活用する新しいモデルを提案する。
ADNIデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-03-07T16:05:24Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Another Use of SMOTE for Interpretable Data Collaboration Analysis [8.143750358586072]
データコラボレーション(DC)分析は、複数の機関にわたるプライバシー保護統合分析のために開発された。
本研究では,データ漏洩のリスクを増大させることなく,認識性能を向上させるアンカーデータ構築手法を提案する。
論文 参考訳(メタデータ) (2022-08-26T06:39:13Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。