論文の概要: High-Dimensional Data Set Simplification by Laplace-Beltrami Operator
- arxiv url: http://arxiv.org/abs/2004.02808v1
- Date: Mon, 23 Mar 2020 13:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 00:34:31.318083
- Title: High-Dimensional Data Set Simplification by Laplace-Beltrami Operator
- Title(参考訳): Laplace-Beltrami演算子による高次元データセットの簡易化
- Authors: Chenkai Xu, Hongwei Lin
- Abstract要約: ラプラス・ベルトラミ作用素(LBO)の固有値と固有関数に基づくビッグデータ単純化手法を開発する。
提案手法の有効性と有効性を検証するために, 実例および応用例を示す。
- 参考スコア(独自算出の注目度): 2.0610261400236793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of the Internet and other digital technologies, the
speed of data generation has become considerably faster than the speed of data
processing. Because big data typically contain massive redundant information,
it is possible to significantly simplify a big data set while maintaining the
key information it contains. In this paper, we develop a big data
simplification method based on the eigenvalues and eigenfunctions of the
Laplace-Beltrami operator (LBO). Specifically, given a data set that can be
considered as an unorganized data point set in high-dimensional space, a
discrete LBO defined on the big data set is constructed and its eigenvalues and
eigenvectors are calculated. Then, the local extremum and the saddle points of
the eigenfunctions are proposed to be the feature points of a data set in
high-dimensional space, constituting a simplified data set. Moreover, we
develop feature point detection methods for the functions defined on an
unorganized data point set in high-dimensional space, and devise metrics for
measuring the fidelity of the simplified data set to the original set. Finally,
examples and applications are demonstrated to validate the efficiency and
effectiveness of the proposed methods, demonstrating that data set
simplification is a method for processing a maximum-sized data set using a
limited data processing capability.
- Abstract(参考訳): インターネットや他のデジタル技術の発展により、データ生成の速度はデータ処理の速度よりもかなり速くなってきている。
ビッグデータは通常、大量の冗長情報を含んでいるため、そのキー情報を保持しながら、ビッグデータセットを著しく単純化することができる。
本稿では,Laplace-Beltrami演算子(LBO)の固有値と固有関数に基づくビッグデータ単純化手法を提案する。
具体的には、高次元空間における非整理データ集合と見なすことのできるデータセットが与えられたとき、そのビッグデータ集合上に定義された離散lboを構築し、その固有値と固有ベクトルを算出する。
そこで, 固有関数の局所極小点とサドル点を高次元空間に設定したデータセットの特徴点とし, 単純化したデータセットを構成する。
さらに,高次元空間における非整理データ集合上に定義された関数の特徴点検出手法を開発し,簡易データセットの原集合への忠実度を測定するためのメトリクスを考案する。
最後に,提案手法の有効性と有効性を検証し,データセットの単純化が限られたデータ処理能力を用いて最大サイズのデータセットを処理する方法であることを示す。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Dimension Independent Data Sets Approximation and Applications to
Classification [0.0]
我々は、近似・補間理論の古典的カーネル法を、非常に具体的な文脈で再検討する。
データ信号と呼ばれる特別な関数は、任意のデータセットに対して定義され、教師付き分類問題を簡潔に解くために使用される。
論文 参考訳(メタデータ) (2022-08-29T17:32:55Z) - Uniform-in-Phase-Space Data Selection with Iterative Normalizing Flows [0.0]
データの位相空間を均一に分散するようにデータポイントを選択する戦略が提案されている。
データセットの小さなサブセットのみを使用して確率マップを構築する場合、レアデータポイントの確率を正確に推定するために反復法が用いられる。
提案フレームワークは、豊富なデータが利用可能であれば、データ効率のよい機械学習を可能にするための実行可能な経路として実証されている。
論文 参考訳(メタデータ) (2021-12-28T20:06:28Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Automated Clustering of High-dimensional Data with a Feature Weighted
Mean Shift Algorithm [16.0817847880416]
平均シフトは、データポイントを領域内のデータポイントの最高密度を表すモードにシフトする単純なインタラクティブな手順です。
特徴の重要性を効率的に学ぶために、シンプルでエレガントな特徴重み付き平均シフト型を提案します。
その結果得られたアルゴリズムは、従来の平均シフトクラスタリング手順を上回るだけでなく、計算の単純さを保っている。
論文 参考訳(メタデータ) (2020-12-20T14:00:40Z) - Clustering small datasets in high-dimension by random projection [2.2940141855172027]
統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。
この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。
得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証する。
論文 参考訳(メタデータ) (2020-08-21T16:49:37Z) - The optimal transport paradigm enables data compression in data-driven
robust control [4.162663632560141]
我々は、このような大きなデータセットを、代表行動のより小さな合成データセットに圧縮する最適な輸送ベース手法を採用する。
圧縮データを用いて計算した分散ロバストな制御法は、元のデータセットと同じ種類の性能保証を享受できることを示す。
数値シミュレーションにより, 合成データによる制御性能は, 元のデータと同等であるが, 計算量が少なくなることを確認した。
論文 参考訳(メタデータ) (2020-05-19T12:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。