論文の概要: Estimating Coverage in Streams via a Modified CVM Method
- arxiv url: http://arxiv.org/abs/2504.04567v1
- Date: Sun, 06 Apr 2025 17:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:37.842107
- Title: Estimating Coverage in Streams via a Modified CVM Method
- Title(参考訳): 修正CVM法によるストリームのカバレッジ推定
- Authors: Carlos Hernandez-Suarez,
- Abstract要約: サンプルのカバレッジである$C$は、ランダムに選択された個人がサンプルに表されるクラスに属する確率として定義される。
C$は固定された人口パラメータではなく、サンプルの特性であるため、カバレッジの推定は困難である。
本稿では,CVMアルゴリズムの簡単な修正に基づいて,ストリーミング設定において$C$を推定する簡易かつ効率的な手法を提案する。
- 参考スコア(独自算出の注目度): 5.344597179252243
- License:
- Abstract: When individuals in a population can be classified in classes or categories, the coverage of a sample, $C$, is defined as the probability that a randomly selected individual from the population belongs to a class represented in the sample. Estimating coverage is challenging because $C$ is not a fixed population parameter, but a property of the sample, and the task becomes more complex when the number of classes is unknown. Furthermore, this problem has not been addressed in scenarios where data arrive as a stream, under the constraint that only $n$ elements can be stored at a time. In this paper, we propose a simple and efficient method to estimate $C$ in streaming settings, based on a straightforward modification of the CVM algorithm, which is commonly used to estimate the number of distinct elements in a data stream.
- Abstract(参考訳): 集団内の個人がクラスまたはカテゴリに分類される場合、サンプルのカバレッジである$C$は、集団からランダムに選択された個人が標本に表されるクラスに属する確率として定義される。
C$は固定された人口パラメータではなく、サンプルの特性であり、クラス数が不明な場合にはタスクがより複雑になるため、カバレッジの推定は困難である。
さらに、この問題は、一度に$n$要素しか保存できないという制約の下で、データがストリームとして到着するシナリオでは解決されていない。
本稿では,データストリームの異なる要素の数を推定するためによく用いられるCVMアルゴリズムの簡単な修正に基づいて,ストリーミング設定における$C$を簡易かつ効率的に推定する手法を提案する。
関連論文リスト
- Meta-Instance Selection. Instance Selection as a Classification Problem with Meta-Features [0.0]
本研究は,インスタンス選択過程を統一されたメタ機能空間で行われる分類タスクに変換するアプローチを提案する。
提案手法は,計算複雑性を著しく低減しつつ,参照インスタンス選択法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-01-20T15:08:19Z) - Model-independent variable selection via the rule-based variable priority [1.2771542695459488]
モデルに依存しない新しいアプローチである可変優先度(VarPro)を導入する。
VarProは、人工データを生成したり、予測エラーを評価することなく、ルールを活用する。
VarProはノイズ変数に対して一貫したフィルタリング特性を持つことを示す。
論文 参考訳(メタデータ) (2024-09-13T17:32:05Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - False membership rate control in mixture models [1.387448620257867]
クラスタリングタスクは、サンプルの要素を均質なグループに分割する。
教師付き設定では、このアプローチはよく知られており、禁忌オプションの分類として言及されている。
本稿では, 教師なし混合モデルフレームワークで再検討し, 偽会員率が予め定義された名目レベルを超えないことを保証する手法を開発することを目的とする。
論文 参考訳(メタデータ) (2022-03-04T22:37:59Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z) - Sampling from a $k$-DPP without looking at all items [58.30573872035083]
カーネル関数とサブセットサイズ$k$が与えられた場合、我々のゴールは、サブセットによって誘導されるカーネル行列の行列式に比例する確率を持つ$n$アイテムから$k$をサンプリングすることである(つまり$k$-DPP)。
既存の$k$-DPPサンプリングアルゴリズムは、すべての$n$アイテムを複数回パスする高価な前処理ステップを必要とするため、大規模なデータセットでは利用できない。
そこで我々は, 十分大きなデータの均一なサンプルを適応的に構築し, より小さな$k$のアイテムを効率よく生成するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-06-30T16:40:44Z) - Dynamic Decision Boundary for One-class Classifiers applied to
non-uniformly Sampled Data [0.9569316316728905]
パターン認識の典型的な問題は、一様でないサンプルデータである。
本稿では,動的決定境界を持つ最小スパンニング木に基づく一クラス分類器を提案する。
論文 参考訳(メタデータ) (2020-04-05T18:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。