論文の概要: On sampling from data with duplicate records
- arxiv url: http://arxiv.org/abs/2008.10549v1
- Date: Mon, 24 Aug 2020 16:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 11:41:31.748643
- Title: On sampling from data with duplicate records
- Title(参考訳): 重複記録データからのサンプリングについて
- Authors: Alireza Heidari, Shrinu Kushagra, Ihab F. Ilyas
- Abstract要約: 複製の有無でデータベースに存在するエンティティの集合から一様にサンプリングする手順を開発する。
最初のステップでは、データベース内の全てのエンティティの周波数を推定します。
第2のステップでは、リジェクションサンプリングを使用して、エンティティの集合から一様サンプルを得る。
- 参考スコア(独自算出の注目度): 6.552205517927228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data deduplication is the task of detecting records in a database that
correspond to the same real-world entity. Our goal is to develop a procedure
that samples uniformly from the set of entities present in the database in the
presence of duplicates. We accomplish this by a two-stage process. In the first
step, we estimate the frequencies of all the entities in the database. In the
second step, we use rejection sampling to obtain a (approximately) uniform
sample from the set of entities. However, efficiently estimating the frequency
of all the entities is a non-trivial task and not attainable in the general
case. Hence, we consider various natural properties of the data under which
such frequency estimation (and consequently uniform sampling) is possible.
Under each of those assumptions, we provide sampling algorithms and give proofs
of the complexity (both statistical and computational) of our approach. We
complement our study by conducting extensive experiments on both real and
synthetic datasets.
- Abstract(参考訳): データ重複は、同じ現実世界のエンティティに対応するデータベース内のレコードを検出するタスクである。
私たちの目標は、重複の存在下でデータベースに存在するエンティティのセットから一様にサンプルする手順を開発することです。
これを二段階のプロセスで達成する。
最初のステップでは、データベース内の全てのエンティティの周波数を推定します。
第2のステップでは、拒絶サンプリングを使用して、エンティティの集合から(ほぼ)均一なサンプルを得る。
しかしながら、すべてのエンティティの頻度を効率的に推定することは非自明な作業であり、一般的な場合では達成できない。
したがって、そのような周波数推定(従って一様サンプリング)が可能なデータの様々な自然特性を考察する。
それぞれの仮定の下では、サンプリングアルゴリズムを提供し、我々のアプローチの複雑さ(統計と計算の両方)の証明を与える。
我々は,実データと合成データの両方について広範な実験を行い,研究を補完する。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery [56.622854875204645]
本稿では,遺伝子・遺伝子相互作用の探索に先進的なトランスフォーマーモデルを活用する,データ駆動型計算ツールを活用した革新的なアプローチを提案する。
新たな重み付き多様化サンプリングアルゴリズムは、データセットのたった2パスで、各データサンプルの多様性スコアを算出する。
論文 参考訳(メタデータ) (2024-10-21T03:35:23Z) - Differences Between Hard and Noisy-labeled Samples: An Empirical Study [7.132368785057315]
ハード/ディフルトなサンプルを含むラベル付きデータセットからのノイズや誤ったラベル付きサンプルは、重要だが未調査のトピックである。
硬さを保ちながらノイズのあるラベル付きサンプルをフィルタリングする,単純で効果的な計量法を提案する。
提案手法は,半教師付き学習フレームワークにおいて,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-20T09:24:23Z) - Sample and Predict Your Latent: Modality-free Sequential Disentanglement
via Contrastive Estimation [2.7759072740347017]
外部信号のないコントラスト推定に基づく自己教師付きシーケンシャル・アンタングルメント・フレームワークを提案する。
実際に,データのセマンティックに類似し,異種なビューに対して,統一的で効率的かつ容易にサンプリングできる手法を提案する。
提案手法は,既存の手法と比較して最先端の結果を示す。
論文 参考訳(メタデータ) (2023-05-25T10:50:30Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Approximate Query Processing for Group-By Queries based on Conditional
Generative Models [3.9837198605506963]
グループバイクエリには複数の値が含まれるため、すべてのグループに対して十分な正確な推定を行うのは難しい。
階層化サンプリングは、一様サンプリングに比べて精度が向上するが、特定のクエリで選択されたサンプルは他のクエリでは動作しない。
オンラインサンプリングは、クエリ時に与えられたクエリのサンプルを選択するが、長いレイテンシを必要とする。
提案フレームワークは階層化サンプリングとオンラインアグリゲーションを組み合わせることで,グループバイクエリの推定精度を向上させることができる。
論文 参考訳(メタデータ) (2021-01-08T08:49:21Z) - Federated Learning under Importance Sampling [49.17137296715029]
本研究は, サンプリングエージェントと非均一に誘導されるデータに対する重要サンプリングと工夫の効果について検討する。
代替のないサンプリングを含むスキームでは,結果のアーキテクチャの性能は,各エージェントのデータ変動性に関連する2つの要因によって制御される。
論文 参考訳(メタデータ) (2020-12-14T10:08:55Z) - More Informed Random Sample Consensus [1.827510863075184]
本稿では,L'evy分布とデータソートアルゴリズムを併用してデータをサンプリングする手法を提案する。
提案手法の仮説サンプリングステップでは, データをソートアルゴリズムでソートし, 不整集合にあるデータ点の確率に基づいてデータをソートする。
次に、L'evy分布のソートされたデータから仮説をサンプリングする。
論文 参考訳(メタデータ) (2020-11-18T06:43:50Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Robustness analytics to data heterogeneity in edge computing [8.234373710211703]
フェデレートラーニング(Federated Learning)は、モデルを共同でトレーニングするフレームワークである。
遠隔地に配置された 集中型サーバーの 完全な知識でね
分散マシンに格納されたデータにアクセスできません
エッジデバイスから生成されたデータは、共通の人口分布から同一かつ独立にサンプリングされていると仮定する研究もある。
両シナリオにおいて,局所的な学習イテレーションと通信頻度が適切に選択された場合,フェデレートラーニングがデータの不均一性に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2020-02-12T15:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。