論文の概要: Human in-the-Loop Estimation of Cluster Count in Datasets via
Similarity-Driven Nested Importance Sampling
- arxiv url: http://arxiv.org/abs/2312.05287v1
- Date: Fri, 8 Dec 2023 15:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:47:15.699053
- Title: Human in-the-Loop Estimation of Cluster Count in Datasets via
Similarity-Driven Nested Importance Sampling
- Title(参考訳): 類似性を考慮したNested Importance Smplingによるデータセットのクラスタ数の推定
- Authors: Gustavo Perez, Daniel Sheldon, Grant Van Horn, Subhransu Maji
- Abstract要約: そこで本研究では,大容量データセットにおけるクラスタ数の推定値を生成する手法を提案する。
本フレームワークは, 対の類似性によって導かれるエッジをサンプリングし, 人間のフィードバックを収集し, クラスタ数を統計的に推定する。
- 参考スコア(独自算出の注目度): 30.403555750519264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying the number of clusters serves as a preliminary goal for many data
analysis tasks. A common approach to this problem is to vary the number of
clusters in a clustering algorithm (e.g., 'k' in $k$-means) and pick the value
that best explains the data. However, the count estimates can be unreliable
especially when the image similarity is poor. Human feedback on the pairwise
similarity can be used to improve the clustering, but existing approaches do
not guarantee accurate count estimates. We propose an approach to produce
estimates of the cluster counts in a large dataset given an approximate
pairwise similarity. Our framework samples edges guided by the pairwise
similarity, and we collect human feedback to construct a statistical estimate
of the cluster count. On the technical front we have developed a nested
importance sampling approach that yields (asymptotically) unbiased estimates of
the cluster count with confidence intervals which can guide human effort.
Compared to naive sampling, our similarity-driven sampling produces more
accurate estimates of counts and tighter confidence intervals. We evaluate our
method on a benchmark of six fine-grained image classification datasets
achieving low error rates on the estimated number of clusters with
significantly less human labeling effort compared to baselines and alternative
active clustering approaches.
- Abstract(参考訳): クラスタ数を特定することは、多くのデータ分析タスクの予備的な目標となる。
この問題に対する一般的なアプローチは、クラスタリングアルゴリズム(例えば、$k$-meansの 'k' など)のクラスタ数を変え、データを最もよく説明する値を選択することである。
しかし、特に画像類似性が低い場合には、カウント推定は信頼できない。
ペアの類似性に対する人間のフィードバックはクラスタリングを改善するために使用できるが、既存のアプローチでは正確なカウント推定を保証できない。
本研究では,大容量データセットにおけるクラスタ数の推定を近似的な相似性から推定する手法を提案する。
本フレームワークは,対の類似性によって導かれるエッジをサンプリングし,人間のフィードバックを収集し,クラスタ数を統計的に推定する。
技術的面では、人間の努力を導くための信頼区間を持つクラスタ数の(漸近的に)偏りのない見積を導出する、ネステッドな重要サンプリングアプローチを開発しました。
ナイーブサンプリングと比較すると、類似性に基づくサンプリングは、カウントの正確な推定と信頼区間の厳密化をもたらす。
提案手法は,ベースラインや代替アクティブクラスタリング手法と比較して,推定されたクラスタ数で誤差率の低い6つの細粒度画像分類データセットのベンチマークで評価した。
関連論文リスト
- SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - Discriminative Estimation of Total Variation Distance: A Fidelity Auditor for Generative Data [10.678533056953784]
本稿では,2つの分布間の総変動(TV)距離を推定する判別手法を提案する。
本手法は,2つの分布の分類におけるベイズリスクとテレビの距離の関係を定量的に評価する。
分類において、特定の仮説クラスを選択することで、テレビの距離を推定する際の高速収束率が達成できることを実証する。
論文 参考訳(メタデータ) (2024-05-24T08:18:09Z) - Estimating Unknown Population Sizes Using the Hypergeometric Distribution [1.03590082373586]
総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。
本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。
実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-22T01:53:56Z) - How Much is Unseen Depends Chiefly on Information About the Seen [2.169081345816618]
トレーニングデータに現れないクラスに属する未知の集団におけるデータポイントの割合は、トレーニングデータに同じ回数に現れるクラスの数$f_k$によってほぼ完全に決定される。
サンプルのみを用いて最小平均二乗誤差(MSE)を持つ推定器を探索する遺伝的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-08T17:12:49Z) - Direct Dense Pose Estimation [138.56533828316833]
複雑な人間のポーズ推定は、RGB画像と人体の表面との密接な対応を学習する問題である。
従来より密集したポーズ推定手法は、すべてMask R-CNNフレームワークに基づいており、まず各人物のバウンディングボックスを識別しようとするトップダウン方式で動作している。
そこで我々は,DDP (Direct Dense Pose) という,高密度ポーズ推定問題の解法を提案する。
論文 参考訳(メタデータ) (2022-04-04T06:14:38Z) - Semi-Supervised Quantile Estimation: Robust and Efficient Inference in High Dimensional Settings [0.5735035463793009]
2つの利用可能なデータセットを特徴とする半教師付き環境での量子推定を考察する。
本稿では,2つのデータセットに基づいて,応答量子化(s)に対する半教師付き推定器群を提案する。
論文 参考訳(メタデータ) (2022-01-25T10:02:23Z) - Targeting Underrepresented Populations in Precision Medicine: A
Federated Transfer Learning Approach [7.467496975496821]
多様な人口と複数の医療機関の異種データを統合した双方向データ統合戦略を提案する。
提案手法は, 人口の予測精度と予測精度を向上し, 人口間のモデル性能のギャップを小さくすることを示す。
論文 参考訳(メタデータ) (2021-08-27T04:04:34Z) - Automatic Social Distance Estimation From Images: Performance
Evaluation, Test Benchmark, and Algorithm [78.88882860340797]
新型コロナウイルスは2020年3月から世界的なパンデミックを引き起こしている。
感染リスクを低減するため、他者から最低1メートルの距離を維持することが強く示唆されている。
このようなアルゴリズムには適切なテストベンチマークは存在しない。
論文 参考訳(メタデータ) (2021-03-11T16:15:20Z) - Global Distance-distributions Separation for Unsupervised Person
Re-identification [93.39253443415392]
既存の教師なしのReIDアプローチは、距離ベースのマッチング/ランク付けを通じて正のサンプルと負のサンプルを正しく識別するのに失敗することが多い。
本研究では,2つの分布に対する大域的距離分布分離の制約を導入し,大域的視点から正と負のサンプルを明確に分離することを奨励する。
本研究では,本手法がベースラインを大幅に改善し,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2020-06-01T07:05:39Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。