論文の概要: Topology-Preserving Scaling in Data Augmentation
- arxiv url: http://arxiv.org/abs/2411.19512v1
- Date: Fri, 29 Nov 2024 07:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:18:21.857099
- Title: Topology-Preserving Scaling in Data Augmentation
- Title(参考訳): データ拡張におけるトポロジ保存スケーリング
- Authors: Vu-Anh Le, Mehmet Dik,
- Abstract要約: 本稿では,データ拡張パイプラインにおけるデータセット正規化のためのアルゴリズムフレームワークを提案する。
我々の貢献は、データ拡張パイプラインにおけるデータセット正規化のための厳密な数学的フレームワークを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We propose an algorithmic framework for dataset normalization in data augmentation pipelines that preserves topological stability under non-uniform scaling transformations. Given a finite metric space \( X \subset \mathbb{R}^n \) with Euclidean distance \( d_X \), we consider scaling transformations defined by scaling factors \( s_1, s_2, \ldots, s_n > 0 \). Specifically, we define a scaling function \( S \) that maps each point \( x = (x_1, x_2, \ldots, x_n) \in X \) to \[ S(x) = (s_1 x_1, s_2 x_2, \ldots, s_n x_n). \] Our main result establishes that the bottleneck distance \( d_B(D, D_S) \) between the persistence diagrams \( D \) of \( X \) and \( D_S \) of \( S(X) \) satisfies: \[ d_B(D, D_S) \leq (s_{\max} - s_{\min}) \cdot \operatorname{diam}(X), \] where \( s_{\min} = \min_{1 \leq i \leq n} s_i \), \( s_{\max} = \max_{1 \leq i \leq n} s_i \), and \( \operatorname{diam}(X) \) is the diameter of \( X \). Based on this theoretical guarantee, we formulate an optimization problem to minimize the scaling variability \( \Delta_s = s_{\max} - s_{\min} \) under the constraint \( d_B(D, D_S) \leq \epsilon \), where \( \epsilon > 0 \) is a user-defined tolerance. We develop an algorithmic solution to this problem, ensuring that data augmentation via scaling transformations preserves essential topological features. We further extend our analysis to higher-dimensional homological features, alternative metrics such as the Wasserstein distance, and iterative or probabilistic scaling scenarios. Our contributions provide a rigorous mathematical framework for dataset normalization in data augmentation pipelines, ensuring that essential topological characteristics are maintained despite scaling transformations.
- Abstract(参考訳): 非一様スケーリング変換の下でトポロジ的安定性を維持するデータ拡張パイプラインにおけるデータセット正規化のためのアルゴリズムフレームワークを提案する。
ユークリッド距離 \( d_X \) を持つ有限距離空間 \( X \subset \mathbb{R}^n \) が与えられたとき、スケーリング因子 \( s_1, s_2, \ldots, s_n > 0 \) によって定義されるスケーリング変換を考える。
具体的には、各点 \(x = (x_1, x_2, \ldots, x_n) \in X \) を \[S(x) = (s_1 x_1, s_2 x_2, \ldots, s_n x_n) に写像するスケーリング関数 \(S \) を定義する。
s_{\min}) \cdot \operatorname{diam}(X), \] where \( s_{\min} = \min_{1 \leq i \leq n} s_i \, \( s_{\max} = \max_{1 \leq i \leq n} s_i \) and \( \name{diam}(X), \( s_{\max} = \max_{1 \leq i \leq n} s_i \)。
この理論的な保証に基づき、拡張変数 \( \Delta_s = s_{\max} - s_{\min} \) を制約 \( d_B(D, D_S) \leq \epsilon \) の下で最小化するために最適化問題を定式化する。
我々は,この問題のアルゴリズム的解法を開発し,スケーリング変換によるデータ拡張が重要なトポロジ的特徴を保存することを保証する。
さらに、我々は分析を高次元のホモロジー的特徴、ワッサーシュタイン距離などの代替指標、反復的または確率的スケーリングシナリオにまで拡張する。
我々の貢献は、データ拡張パイプラインにおけるデータセット正規化のための厳密な数学的枠組みを提供し、スケーリング変換にもかかわらず、重要なトポロジ的特性が維持されることを保証する。
関連論文リスト
- The Sample Complexity Of ERMs In Stochastic Convex Optimization [13.896417716930687]
実際に$tildeO(fracdepsilon+frac1epsilon2)$データポイントも十分であることを示す。
さらに、この結果を一般化し、全ての凸体に対して同様の上界が成り立つことを示す。
論文 参考訳(メタデータ) (2023-11-09T14:29:25Z) - An Oblivious Stochastic Composite Optimization Algorithm for Eigenvalue
Optimization Problems [76.2042837251496]
相補的な合成条件に基づく2つの難解なミラー降下アルゴリズムを導入する。
注目すべきは、どちらのアルゴリズムも、目的関数のリプシッツ定数や滑らかさに関する事前の知識なしで機能する。
本稿では,大規模半確定プログラム上での手法の効率性とロバスト性を示す。
論文 参考訳(メタデータ) (2023-06-30T08:34:29Z) - Private Isotonic Regression [54.32252900997422]
部分順序集合 (poset) $mathcalX$ と任意のリプシッツ損失関数に対する等調回帰の問題を考察する。
約$mathrmwidth(mathcalX) cdot log|mathcalX| / n$, ここで$mathrmwidth(mathcalX)$はポーズの幅である。
上記の境界は本質的に最良であることを示す。
論文 参考訳(メタデータ) (2022-10-27T05:08:07Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - Last iterate convergence of SGD for Least-Squares in the Interpolation
regime [19.05750582096579]
基本最小二乗構成におけるノイズレスモデルについて検討する。
最適予測器が完全に入力に適合すると仮定し、$langletheta_*, phi(X) rangle = Y$, ここで$phi(X)$は無限次元の非線型特徴写像を表す。
論文 参考訳(メタデータ) (2021-02-05T14:02:20Z) - Parameter-free Stochastic Optimization of Variationally Coherent
Functions [19.468067110814808]
我々は$mathbbRdilon上で関数のクラスを1次最適化するためのアルゴリズムを設計・解析する。
この2つを同時に実現したのは初めてである。
論文 参考訳(メタデータ) (2021-01-30T15:05:34Z) - Optimal Mean Estimation without a Variance [103.26777953032537]
本研究では,データ生成分布の分散が存在しない環境での重み付き平均推定問題について検討する。
最小の信頼区間を$n,d,delta$の関数として得る推定器を設計する。
論文 参考訳(メタデータ) (2020-11-24T22:39:21Z) - Thresholded Lasso Bandit [70.17389393497125]
Thresholded Lasso banditは、報酬関数を定義するベクトルとスパースサポートを推定するアルゴリズムである。
一般には $mathcalO( log d + sqrtT )$ や $mathcalO( log d + sqrtT )$ としてスケールする非漸近的後悔の上界を確立する。
論文 参考訳(メタデータ) (2020-10-22T19:14:37Z) - Hybrid Stochastic-Deterministic Minibatch Proximal Gradient:
Less-Than-Single-Pass Optimization with Nearly Optimal Generalization [83.80460802169999]
HSDMPGは、学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成可能であることを示す。
損失係数について、HSDMPGは学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成できることを示す。
論文 参考訳(メタデータ) (2020-09-18T02:18:44Z) - Tensor optimal transport, distance between sets of measures and tensor
scaling [0.0]
これは$d$-tensors上の線形プログラミング問題である。
このアルゴリズムは厳密な凸関数の部分最小化アルゴリズムとみなすことができる。
論文 参考訳(メタデータ) (2020-05-02T23:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。