論文の概要: Reconstructing High-Dimensional Datasets From Their Bivariate
Projections
- arxiv url: http://arxiv.org/abs/2312.15306v1
- Date: Sat, 23 Dec 2023 17:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:37:19.230492
- Title: Reconstructing High-Dimensional Datasets From Their Bivariate
Projections
- Title(参考訳): 二変量射影による高次元データセットの再構成
- Authors: Eli Dugan, Klaus Mueller
- Abstract要約: クリフフィンディングを含むグラフベースのソリューションが導入され、元のデータセットを構成する可能性のある行のセットが提供される。
幻の斜めが見つかる場合や、正確な解が不可能な場合など、複雑さについて論じる。
その結果、これらの手法は、多くの場合、元のデータセットのかなりの部分を再現することに成功した。
- 参考スコア(独自算出の注目度): 24.412136677884277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper deals with developing techniques for the reconstruction of
high-dimensional datasets given each bivariate projection, as would be found in
a matrix scatterplot. A graph-based solution is introduced, involving
clique-finding, providing a set of possible rows that might make up the
original dataset. Complications are discussed, including cases where phantom
cliques are found, as well as cases where an exact solution is impossible.
Additional methods are shown, with some dealing with fully deducing rows and
others dealing with having to creatively produce methods that find some
possibilities to be more likely than others. Results show that these methods
are highly successful in recreating a significant portion of the original
dataset in many cases - for randomly generated and real-world datasets - with
the factors leading to a greater rate of failure being lower dimension, higher
n, and lower interval.
- Abstract(参考訳): 本稿では,行列散布法に見られるように,各双変量射影に与えられる高次元データセットの再構成手法の開発について述べる。
クリフフィニングを含むグラフベースのソリューションが導入され、元のデータセットを構成する可能性のある行のセットを提供する。
幻の斜めが見つかる場合や、正確な解が不可能な場合など、複雑な問題について議論する。
他にも、完全に推論された行を扱うものや、創造的に他の行よりも可能性の高いメソッドを作らなければならないものもある。
その結果、これらの手法は、多くの場合、ランダムに生成されたデータセットや実世界のデータセットにおいて、元のデータセットのかなりの部分を再現するのに非常に成功しており、失敗率が高い要因は、低次元、高n、低間隔であることがわかった。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation [37.24514001359966]
連続神経場として表現される複数の形状を、従来より高い精度で符号化する方法を示す。
我々は、データセット毎に1つのネットワークで、最先端のマルチシーン再構成と圧縮結果を実証する。
論文 参考訳(メタデータ) (2024-06-06T17:55:34Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - Adaptive Cholesky Gaussian Processes [7.684183064816171]
本稿では,データの部分集合のみを考慮し,正確なガウス過程モデルを大規模データセットに適合させる手法を提案する。
我々のアプローチは、計算オーバーヘッドが少ない正確な推論中に、サブセットのサイズがフライで選択されるという点で新しくなっています。
論文 参考訳(メタデータ) (2022-02-22T09:43:46Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Clustering small datasets in high-dimension by random projection [2.2940141855172027]
統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。
この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。
得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証する。
論文 参考訳(メタデータ) (2020-08-21T16:49:37Z) - Self-Representation Based Unsupervised Exemplar Selection in a Union of
Subspaces [27.22427926657327]
表現係数の $ell_1$ ノルムによって測定されたすべてのデータポイントを最もよく再構成する部分集合を探索する新しい指数選択モデルを提案する。
データセットが独立部分空間の和から引き出されるとき、我々の方法は各部分空間から十分な数の代表を選択できる。
また,不均衡なデータに対して頑健で,大規模データに対して効率の良い,模範的なサブスペースクラスタリング手法も開発している。
論文 参考訳(メタデータ) (2020-06-07T19:43:33Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。