論文の概要: Reconstructing High-Dimensional Datasets From Their Bivariate
Projections
- arxiv url: http://arxiv.org/abs/2312.15306v1
- Date: Sat, 23 Dec 2023 17:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:37:19.230492
- Title: Reconstructing High-Dimensional Datasets From Their Bivariate
Projections
- Title(参考訳): 二変量射影による高次元データセットの再構成
- Authors: Eli Dugan, Klaus Mueller
- Abstract要約: クリフフィンディングを含むグラフベースのソリューションが導入され、元のデータセットを構成する可能性のある行のセットが提供される。
幻の斜めが見つかる場合や、正確な解が不可能な場合など、複雑さについて論じる。
その結果、これらの手法は、多くの場合、元のデータセットのかなりの部分を再現することに成功した。
- 参考スコア(独自算出の注目度): 24.412136677884277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper deals with developing techniques for the reconstruction of
high-dimensional datasets given each bivariate projection, as would be found in
a matrix scatterplot. A graph-based solution is introduced, involving
clique-finding, providing a set of possible rows that might make up the
original dataset. Complications are discussed, including cases where phantom
cliques are found, as well as cases where an exact solution is impossible.
Additional methods are shown, with some dealing with fully deducing rows and
others dealing with having to creatively produce methods that find some
possibilities to be more likely than others. Results show that these methods
are highly successful in recreating a significant portion of the original
dataset in many cases - for randomly generated and real-world datasets - with
the factors leading to a greater rate of failure being lower dimension, higher
n, and lower interval.
- Abstract(参考訳): 本稿では,行列散布法に見られるように,各双変量射影に与えられる高次元データセットの再構成手法の開発について述べる。
クリフフィニングを含むグラフベースのソリューションが導入され、元のデータセットを構成する可能性のある行のセットを提供する。
幻の斜めが見つかる場合や、正確な解が不可能な場合など、複雑な問題について議論する。
他にも、完全に推論された行を扱うものや、創造的に他の行よりも可能性の高いメソッドを作らなければならないものもある。
その結果、これらの手法は、多くの場合、ランダムに生成されたデータセットや実世界のデータセットにおいて、元のデータセットのかなりの部分を再現するのに非常に成功しており、失敗率が高い要因は、低次元、高n、低間隔であることがわかった。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - Adaptive Cholesky Gaussian Processes [7.684183064816171]
本稿では,データの部分集合のみを考慮し,正確なガウス過程モデルを大規模データセットに適合させる手法を提案する。
我々のアプローチは、計算オーバーヘッドが少ない正確な推論中に、サブセットのサイズがフライで選択されるという点で新しくなっています。
論文 参考訳(メタデータ) (2022-02-22T09:43:46Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Clustering small datasets in high-dimension by random projection [2.2940141855172027]
統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。
この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。
得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証する。
論文 参考訳(メタデータ) (2020-08-21T16:49:37Z) - Self-Representation Based Unsupervised Exemplar Selection in a Union of
Subspaces [27.22427926657327]
表現係数の $ell_1$ ノルムによって測定されたすべてのデータポイントを最もよく再構成する部分集合を探索する新しい指数選択モデルを提案する。
データセットが独立部分空間の和から引き出されるとき、我々の方法は各部分空間から十分な数の代表を選択できる。
また,不均衡なデータに対して頑健で,大規模データに対して効率の良い,模範的なサブスペースクラスタリング手法も開発している。
論文 参考訳(メタデータ) (2020-06-07T19:43:33Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。