論文の概要: Data-intrinsic approximation in metric spaces
- arxiv url: http://arxiv.org/abs/2510.13496v1
- Date: Wed, 15 Oct 2025 12:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.670051
- Title: Data-intrinsic approximation in metric spaces
- Title(参考訳): 距離空間におけるデータ-内在近似
- Authors: Jürgen Dölz, Michael Multerer,
- Abstract要約: 有限距離空間間のサイト・ツー・バリューマップとして数学的に記述されたラベル付きデータサンプルの近似について考察する。
本稿では,その効率的な計算のためのアルゴリズムを提案し,ラベル付きデータに対するサンプルベース近似理論を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analysis and processing of data is a vital part of our modern society and requires vast amounts of computational resources. To reduce the computational burden, compressing and approximating data has become a central topic. We consider the approximation of labeled data samples, mathematically described as site-to-value maps between finite metric spaces. Within this setting, we identify the discrete modulus of continuity as an effective data-intrinsic quantity to measure regularity of site-to-value maps without imposing further structural assumptions. We investigate the consistency of the discrete modulus of continuity in the infinite data limit and propose an algorithm for its efficient computation. Building on these results, we present a sample based approximation theory for labeled data. For data subject to statistical uncertainty we consider multilevel approximation spaces and a variant of the multilevel Monte Carlo method to compute statistical quantities of interest. Our considerations connect approximation theory for labeled data in metric spaces to the covering problem for (random) balls on the one hand and the efficient evaluation of the discrete modulus of continuity to combinatorial optimization on the other hand. We provide extensive numerical studies to illustrate the feasibility of the approach and to validate our theoretical results.
- Abstract(参考訳): データの分析と処理は現代社会の重要な部分であり、膨大な量の計算資源を必要とする。
計算負担を軽減するため、データの圧縮と近似が中心となっている。
有限距離空間間のサイト・ツー・バリューマップとして数学的に記述されたラベル付きデータサンプルの近似について考察する。
この設定では、連続性の離散率を、より構造的な仮定を伴わずに、サイト・ツー・バリューマップの正則性を測定する効果的なデータ-本質的な量として識別する。
無限データ限界における離散的連続率の整合性について検討し,その効率的な計算法を提案する。
これらの結果に基づいて,ラベル付きデータに対するサンプルベース近似理論を提案する。
統計的不確実性を考慮したデータに対しては、多レベル近似空間と、統計量の統計量を計算するための多レベルモンテカルロ法の変種を考える。
我々は,距離空間におけるラベル付きデータの近似理論を,一方の(ランダム)球の被覆問題と結び付け,他方の組合せ最適化に対する連続性の離散係数の効率的な評価を行う。
提案手法の有効性を実証し, 理論的結果の検証を行うため, 広範囲にわたる数値的研究を行った。
関連論文リスト
- Statistical Inference in Tensor Completion: Optimal Uncertainty Quantification and Statistical-to-Computational Gaps [7.174572371800217]
本稿では,不完全かつノイズの多い観測を用いて,テンソル線形形式を統計的に推定する簡易かつ効率的な手法を提案する。
これは、信頼区間の構築、ヘテロスケダティックおよびサブ指数雑音下での推論、同時テストなど、様々な統計的推論タスクに適している。
論文 参考訳(メタデータ) (2024-10-15T03:09:52Z) - Density Estimation via Binless Multidimensional Integration [45.21975243399607]
非パラメトリック、ロバスト、およびデータ効率の高い密度推定のためのBinless Multidimensional Thermodynamic Integration (BMTI)法を提案する。
BMTIは、近隣のデータポイント間の対数密度差を計算し、その密度の対数を推定する。
この方法は様々な複雑な合成高次元データセットでテストされ、化学物理学の文献から現実的なデータセットでベンチマークされる。
論文 参考訳(メタデータ) (2024-07-10T23:45:20Z) - Synthetic Tabular Data Validation: A Divergence-Based Approach [8.062368743143388]
分散は、データ分散間の相違を定量化する。
従来のアプローチでは、各特徴に対して独立して発散率を計算する。
本稿では,差分推定を用いて限界比較の限界を克服する手法を提案する。
論文 参考訳(メタデータ) (2024-05-13T15:07:52Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Partial Counterfactual Identification from Observational and
Experimental Data [83.798237968683]
観測データと実験データの任意の組み合わせから最適境界を近似する有効なモンテカルロアルゴリズムを開発した。
我々のアルゴリズムは、合成および実世界のデータセットに基づいて広範囲に検証されている。
論文 参考訳(メタデータ) (2021-10-12T02:21:30Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - A Robust Functional EM Algorithm for Incomplete Panel Count Data [66.07942227228014]
完全無作為な仮定(MCAR)の下での数え上げ過程の平均関数を推定する機能的EMアルゴリズムを提案する。
提案アルゴリズムは、いくつかの一般的なパネル数推定手法をラップし、不完全数にシームレスに対処し、ポアソン過程の仮定の誤特定に頑健である。
本稿では, 数値実験による提案アルゴリズムの有用性と喫煙停止データの解析について述べる。
論文 参考訳(メタデータ) (2020-03-02T20:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。