論文の概要: Sampling-Based Estimation of Jaccard Containment and Similarity
- arxiv url: http://arxiv.org/abs/2507.10019v2
- Date: Thu, 17 Jul 2025 06:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 11:36:41.089172
- Title: Sampling-Based Estimation of Jaccard Containment and Similarity
- Title(参考訳): サンプリングによるジャカード含有量と類似度の推定
- Authors: Pranav Joshi,
- Abstract要約: 本研究はサンプル間の重なり合いを予測する二項モデルを導入し,サンプルサイズが元の集合に比べて小さい場合の精度と実用性を示した。
このフレームワークは,データセットの類似性を推定するために拡張されており,本論文では,部分データやサンプルデータのみが利用可能な大規模データシステムにこれらの手法を適用するためのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of estimating the containment and similarity between two sets using only random samples from each set, without relying on sketches or full data access. The study introduces a binomial model for predicting the overlap between samples, demonstrating that it is both accurate and practical when sample sizes are small compared to the original sets. The paper compares this model to previous approaches and shows that it provides better estimates under the considered conditions. It also analyzes the statistical properties of the estimator, including error bounds and sample size requirements needed to achieve a desired level of accuracy and confidence. The framework is extended to estimate set similarity, and the paper provides guidance for applying these methods in large scale data systems where only partial or sampled data is available.
- Abstract(参考訳): 本稿では,スケッチや全データアクセスに頼ることなく,各集合からのランダムなサンプルのみを用いて2つの集合間の包含度と類似度を推定する問題に対処する。
本研究はサンプル間の重なり合いを予測する二項モデルを導入し,サンプルサイズが元の集合に比べて小さい場合の精度と実用性を示した。
本稿では,このモデルを従来の手法と比較し,検討条件下での予測精度が向上したことを示す。
また、誤差境界やサンプルサイズ要求を含む推定器の統計特性を分析し、所望の精度と信頼性を達成する。
このフレームワークは,データセットの類似性を推定するために拡張されており,本論文では,部分データやサンプルデータのみが利用可能な大規模データシステムにこれらの手法を適用するためのガイダンスを提供する。
関連論文リスト
- Size-adaptive Hypothesis Testing for Fairness [8.315080617799445]
我々は、公正性評価を証拠に基づく統計的決定に変換する統一的、サイズ適応的、仮説テストフレームワークを導入する。
統計的パリティ差に対して中央限の結果が証明され、解析的信頼区間と、タイプI(偽陽性)エラーがレベル$alpha$で保証されるウォルド試験が導かれる。
小さな交叉群の長い尾に対して、完全ベイズ的ディリクレ・マルチノミカル推定器を導出する。
論文 参考訳(メタデータ) (2025-06-12T11:22:09Z) - Rethinking the generalization of drug target affinity prediction algorithms via similarity aware evaluation [19.145735532822012]
従来の評価におけるテストセットの正準ランダム化分割は、トレーニングセットと高い類似性を持つサンプルに支配されるテストセットを残していることを示す。
本稿では,任意の分布に適応する新しい分割手法を提案する類似性意識評価の枠組みを提案する。
結果は,提案手法が望ましい分布に適合し,モデルの開発を導くことを実証した。
論文 参考訳(メタデータ) (2025-04-13T08:30:57Z) - Assessing Model Generalization in Vicinity [34.86022681163714]
本稿では, 分布外テストセットにおける分類モデルの一般化能力について, 基礎的真理ラベルに依存することなく評価する。
そこで本研究では,各試料の正当性評価に,隣り合う試験試料からの応答を取り入れることを提案する。
結果のスコアは、すべてのテストサンプルで平均化され、モデル精度の全体像が示される。
論文 参考訳(メタデータ) (2024-06-13T15:58:37Z) - PQMass: Probabilistic Assessment of the Quality of Generative Models using Probability Mass Estimation [7.143427689586699]
そこで本研究では,各試料から得られる2つの分布を比較するための可能性のない手法を提案する。
PQMassはサンプル空間を重複しない領域に分割し、各領域に該当するデータサンプルの数にチ二乗テストを適用する。
我々はPQMassが適度に高次元データにスケールできることを示し、実用的な応用における特徴抽出の必要性を排除している。
論文 参考訳(メタデータ) (2024-02-06T19:39:26Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Statistical Model Criticism of Variational Auto-Encoders [15.005894753472894]
変分自動エンコーダ(VAE)の統計的評価のための枠組みを提案する。
我々は、手書き文字のイメージと英文のコーパスをモデル化する文脈において、このフレームワークの2つの例をテストする。
論文 参考訳(メタデータ) (2022-04-06T18:19:29Z) - BRIO: Bringing Order to Abstractive Summarization [107.97378285293507]
非決定論的分布を前提とした新しい学習パラダイムを提案する。
提案手法は, CNN/DailyMail (47.78 ROUGE-1) と XSum (49.07 ROUGE-1) のデータセット上で, 最新の結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T05:19:38Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - CARMS: Categorical-Antithetic-REINFORCE Multi-Sample Gradient Estimator [60.799183326613395]
本稿では, 相互に負に相関した複数のサンプルに基づく分類的確率変数の非バイアス推定器を提案する。
CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。
我々は、生成的モデリングタスクと構造化された出力予測タスクに基づいて、いくつかのベンチマークデータセット上でCARMSを評価し、強力な自己制御ベースラインを含む競合する手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-26T20:14:30Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - A Case Study on Sampling Strategies for Evaluating Neural Sequential
Item Recommendation Models [69.32128532935403]
負の項目をサンプリングする2つのよく知られた戦略は、一様ランダムサンプリングと人気によるサンプリングである。
我々は、現在最先端のシーケンシャルレコメンデータモデルを再評価する。
いずれのサンプリング戦略も,モデルの完全なランキングと比較すると,一貫性のないランキングを生成できることがわかった。
論文 参考訳(メタデータ) (2021-07-27T19:06:03Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Learning Ising models from one or multiple samples [26.00403702328348]
我々は一サンプル推定の保証を提供し、相互作用行列の族における計量エントロピーの観点から推定誤差を定量化する。
我々の技術的アプローチは、モデルの相互作用ネットワークをスパース化し、結果の条件分布への依存性を十分に弱める変数のサブセットを条件付けすることの恩恵を受ける。
論文 参考訳(メタデータ) (2020-04-20T15:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。