論文の概要: Dissimilar Batch Decompositions of Random Datasets
- arxiv url: http://arxiv.org/abs/2504.06991v1
- Date: Wed, 09 Apr 2025 15:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:03.676712
- Title: Dissimilar Batch Decompositions of Random Datasets
- Title(参考訳): ランダムデータセットの異種バッチ分解
- Authors: Ghurumuruhan Ganesan,
- Abstract要約: データポイントは与えられた空間から独立して引き出され、2つのデータポイント間の類似性の概念が定義されると仮定する。
次に、各バッチ内の類似度を制限する分解を検討し、最小サイズに対して高い確率境界を求める。
類似性制約の緩和と全体サイズとの本質的にのトレードオフを示すとともに、マーチンゲール法を用いて、与えられた類似性を持つデータサブセットの最大サイズに対する境界を求める。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: For better learning, large datasets are often split into small batches and fed sequentially to the predictive model. In this paper, we study such batch decompositions from a probabilistic perspective. We assume that data points (possibly corrupted) are drawn independently from a given space and define a concept of similarity between two data points. We then consider decompositions that restrict the amount of similarity within each batch and obtain high probability bounds for the minimum size. We demonstrate an inherent tradeoff between relaxing the similarity constraint and the overall size and also use martingale methods to obtain bounds for the maximum size of data subsets with a given similarity.
- Abstract(参考訳): より優れた学習のために、大規模なデータセットは小さなバッチに分割され、予測モデルにシーケンシャルにフィードされることが多い。
本稿では,そのようなバッチ分解を確率論的観点から検討する。
データポイントが与えられた空間から独立して引き出されると仮定し、2つのデータポイント間の類似性の概念を定義する。
次に、各バッチ内の類似度を制限する分解を検討し、最小サイズに対して高い確率境界を求める。
類似性制約の緩和と全体サイズとの本質的にのトレードオフを示すとともに、マーチンゲール法を用いて、与えられた類似性を持つデータサブセットの最大サイズに対する境界を求める。
関連論文リスト
- Robustly estimating heterogeneity in factorial data using Rashomon Partitions [4.76518127830168]
我々は、羅生門分割集合(RPS)と呼ばれる別の視点を開発する。
RPSは、たとえ実質的に異なる説明を提供するとしても、最大アフターディパーティションの近くに後続値を持つすべてのパーティションを組み込む。
提案手法を,チャリタブルギフトの価格効果,染色体構造(テロメア長),マイクロファイナンス導入の3つの経験的設定に適用した。
論文 参考訳(メタデータ) (2024-04-02T17:53:28Z) - Exact Selective Inference with Randomization [2.7531706969618965]
ランダム化を伴う正確な選択推論のためのピボットを導入する。
私たちのピボットは、ガウス回帰モデルにおいて正確な推論をもたらすだけでなく、クローズド形式でも利用できる。
シミュレーションデータセットとHIV薬剤耐性データセットにおけるパワーと正確な選択的推論のトレードオフについて検討する。
論文 参考訳(メタデータ) (2022-12-25T18:14:45Z) - Adaptive Cholesky Gaussian Processes [7.684183064816171]
本稿では,データの部分集合のみを考慮し,正確なガウス過程モデルを大規模データセットに適合させる手法を提案する。
我々のアプローチは、計算オーバーヘッドが少ない正確な推論中に、サブセットのサイズがフライで選択されるという点で新しくなっています。
論文 参考訳(メタデータ) (2022-02-22T09:43:46Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - Manifold Hypothesis in Data Analysis: Double Geometrically-Probabilistic
Approach to Manifold Dimension Estimation [92.81218653234669]
本稿では, 多様体仮説の検証と基礎となる多様体次元推定に対する新しいアプローチを提案する。
我々の幾何学的手法はミンコフスキー次元計算のためのよく知られたボックスカウントアルゴリズムのスパースデータの修正である。
実データセットの実験では、2つの手法の組み合わせに基づく提案されたアプローチが強力で効果的であることが示されている。
論文 参考訳(メタデータ) (2021-07-08T15:35:54Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Normal-bundle Bootstrap [2.741266294612776]
本稿では,与えられたデータセットの幾何学的構造を保持する新しいデータを生成する手法を提案する。
微分幾何学における多様体学習と概念のアルゴリズムにインスパイアされた本手法は,基礎となる確率測度を余分化測度に分解する。
本手法は, 密度リッジおよび関連統計量の推定に応用し, オーバーフィッティングを低減するためにデータ拡張を行う。
論文 参考訳(メタデータ) (2020-07-27T21:14:19Z) - Interpolation and Learning with Scale Dependent Kernels [91.41836461193488]
非パラメトリックリッジレス最小二乗の学習特性について検討する。
スケール依存カーネルで定義される推定器の一般的な場合を考える。
論文 参考訳(メタデータ) (2020-06-17T16:43:37Z) - Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators
with Massive Data [20.79270369203348]
既存の手法は主に高い計算効率のために置換されたサブサンプリングに焦点を当てている。
まず,準類似度推定の文脈で最適なサブサンプリング確率を導出する。
我々は,分散サブサンプリングフレームワークを開発し,全データの小さなパーティションで統計を同時に計算する。
論文 参考訳(メタデータ) (2020-05-21T02:46:56Z) - LSF-Join: Locality Sensitive Filtering for Distributed All-Pairs Set
Similarity Under Skew [58.21885402826496]
全ペアセットの類似性は、大規模で高次元のデータセットであっても広く使われているデータマイニングタスクである。
我々は,全対集合の類似性を近似するために,新しい分散アルゴリズム LSF-Join を提案する。
LSF-Joinは、小さな類似度閾値やスキュー入力セットであっても、最も近いペアを効率的に見つける。
論文 参考訳(メタデータ) (2020-03-06T00:06:20Z) - Distributed, partially collapsed MCMC for Bayesian Nonparametrics [68.5279360794418]
ディリクレ法やベータ・ベルヌーリ法のようなモデルでよく用いられる完全無作為測度は独立な部分測度に分解可能であるという事実を利用する。
この分解を用いて、潜在測度を、インスタンス化された成分のみを含む有限測度と、他のすべての成分を含む無限測度に分割する。
得られたハイブリッドアルゴリズムは、収束保証を犠牲にすることなくスケーラブルな推論を可能にすることができる。
論文 参考訳(メタデータ) (2020-01-15T23:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。