論文の概要: A Multi-criteria Approach for Fast and Outlier-aware Representative
Selection from Manifolds
- arxiv url: http://arxiv.org/abs/2003.05989v1
- Date: Thu, 12 Mar 2020 19:31:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:12:40.370970
- Title: A Multi-criteria Approach for Fast and Outlier-aware Representative
Selection from Manifolds
- Title(参考訳): マニフォールドからの高速かつ外部認識型代表選択のための多基準アプローチ
- Authors: Mahlagha Sedghi, George Atia, Michael Georgiopoulos
- Abstract要約: MOSAICは、非線形構造を示す可能性のある高次元データから、新しい代表選択手法である。
提案手法は,サンプルサブセットのグローバル表現力を最大化する多基準選択手法を推し進める。
代表部分集合の望ましい特性を全て一度に達成するMOSAICの優位性を示す。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of representative selection amounts to sampling few informative
exemplars from large datasets. This paper presents MOSAIC, a novel
representative selection approach from high-dimensional data that may exhibit
non-linear structures. Resting upon a novel quadratic formulation, Our method
advances a multi-criteria selection approach that maximizes the global
representation power of the sampled subset, ensures diversity, and rejects
disruptive information by effectively detecting outliers. Through theoretical
analyses we characterize the obtained sketch and reveal that the sampled
representatives maximize a well-defined notion of data coverage in a
transformed space. In addition, we present a highly scalable randomized
implementation of the proposed algorithm shown to bring about substantial
speedups. MOSAIC's superiority in achieving the desired characteristics of a
representative subset all at once while exhibiting remarkable robustness to
various outlier types is demonstrated via extensive experiments conducted on
both real and synthetic data with comparisons to state-of-the-art algorithms.
- Abstract(参考訳): 代表選考の問題は、大規模なデータセットから情報的な例をほとんど集めることである。
本稿では,非線形構造を示すことのできる高次元データから,新しい代表選択手法MOSAICを提案する。
新たな二次的定式化を前提として,サンプルサブセットのグローバル表現力を最大化し,多様性を保証し,外乱を効果的に検出して破壊情報を拒否する多基準選択手法を提案する。
理論的解析を通じて得られたスケッチを特徴付け、サンプルされた代表者が変換された空間におけるデータカバレッジの明確に定義された概念を最大化することを明らかにする。
さらに,提案アルゴリズムの高度にスケーラブルなランダム化実装により,大幅な高速化を実現することを示す。
代表部分集合の望ましい特性を達成する上でのMOSAICの優位性は, 実データと合成データの両方において, 最先端のアルゴリズムと比較した広範な実験により, 様々な外れ値型に対して顕著な堅牢性を示した。
関連論文リスト
- Unified Bayesian representation for high-dimensional multi-modal biomedical data for small-sample classification [0.8890696402391598]
BALDURは、マルチモーダルデータセットと小さなサンプルサイズを高次元設定で扱うように設計された新しいベイズアルゴリズムである。
このモデルは2つの異なる神経変性データセットでテストされ、最先端のモデルよりも優れ、科学文献に記載されているマーカーと一致した特徴を検出する。
論文 参考訳(メタデータ) (2024-11-11T14:51:24Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Fast Empirical Scenarios [0.0]
サンプルモーメントと整合した大規模パネルデータから代表シナリオを抽出する。
2つの新しいアルゴリズムのうち、最初に観測されていないシナリオを識別する。
第2の提案は、すでに実現した世界の状態から重要なデータポイントを選択する。
論文 参考訳(メタデータ) (2023-07-08T07:58:53Z) - Adversarial Lagrangian Integrated Contrastive Embedding for Limited Size
Datasets [8.926248371832852]
本研究では,小さなデータセットに対する新しい逆ラグランジアン統合コントラスト埋め込み(ALICE)法を提案する。
提案手法の精度向上とトレーニング収束性を示す。
種々の拡張手法を用いた新しい対角統合コントラストモデルについて検討した。
論文 参考訳(メタデータ) (2022-10-06T23:59:28Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Informative Sample Mining Network for Multi-Domain Image-to-Image
Translation [101.01649070998532]
本稿では,画像から画像への翻訳作業において,サンプル選択戦略の改善が有効であることを示す。
本稿では,サンプルの硬さを抑えつつ,サンプルの硬さを抑えるための新しい多段階サンプルトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-01-05T05:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。