論文の概要: Capturing patterns of variation unique to a specific dataset
- arxiv url: http://arxiv.org/abs/2104.08157v1
- Date: Fri, 16 Apr 2021 15:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 18:47:39.438094
- Title: Capturing patterns of variation unique to a specific dataset
- Title(参考訳): 特定のデータセット特有の変動パターンをキャプチャする
- Authors: Robin Tu, Alexander H. Foss, Sihai D. Zhao
- Abstract要約: 対象データセットの1つ以上の比較データセットに対する低次元表現を同定するチューニングフリー手法を提案する。
複数の実験で、単一のバックグラウンドデータセットを持つUCAが、様々なチューニングパラメータを持つcPCAと同じような結果を達成することを示しました。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capturing patterns of variation present in a dataset is important in
exploratory data analysis and unsupervised learning. Contrastive dimension
reduction methods, such as contrastive principal component analysis (cPCA),
find patterns unique to a target dataset of interest by contrasting with a
carefully chosen background dataset representing unwanted or uninteresting
variation. However, such methods typically require a tuning parameter that
governs the level of contrast, and it is unclear how to choose this parameter
objectively. Furthermore, it is frequently of interest to contrast against
multiple backgrounds, which is difficult to accomplish with existing methods.
We propose unique component analysis (UCA), a tuning-free method that
identifies low-dimensional representations of a target dataset relative to one
or more comparison datasets. It is computationally efficient even with large
numbers of features. We show in several experiments that UCA with a single
background dataset achieves similar results compared to cPCA with various
tuning parameters, and that UCA with multiple individual background datasets is
superior to both cPCA with any single background data and cPCA with a pooled
background dataset.
- Abstract(参考訳): 探索的データ分析と教師なし学習では,データセットに存在する変動パターンを捉えることが重要である。
対照的な主成分分析(cPCA)のような対照的な次元削減手法は、意図しない、あるいは興味のない変動を表す慎重に選択された背景データセットと対比することにより、対象とする関心のデータセットに固有のパターンを見つける。
しかし、そのような方法は通常、コントラストのレベルを規定するチューニングパラメータを必要とし、このパラメータを客観的に選択する方法は不明である。
さらに、既存の手法では達成が難しい複数の背景と対比することは、しばしば関心がある。
本研究では,1つ以上の比較データセットに対して,対象データセットの低次元表現を識別する一意成分分析(UCA)を提案する。
多数の特徴があっても計算効率が良い。
いくつかの実験において、単一のバックグラウンドデータセットを持つUCAは、様々なチューニングパラメータを持つcPCAと比較して同様の結果が得られることを示し、複数のバックグラウンドデータセットを持つUCAは、単一のバックグラウンドデータを持つcPCAと、プールされたバックグラウンドデータセットを持つcPCAの両方よりも優れていることを示した。
関連論文リスト
- Diversity Measurement and Subset Selection for Instruction Tuning
Datasets [40.930387018872786]
決定点プロセスを用いて、サブセット選択のための命令チューニングデータセットの多様性と品質をキャプチャする。
興味のあるデータセットと最も多様な参照データセットとの距離であるログ決定距離でデータセットの多様性を測定することを提案する。
論文 参考訳(メタデータ) (2024-02-04T02:09:43Z) - SepVAE: a contrastive VAE to separate pathological patterns from healthy
ones [2.3008314626990964]
コントラスト分析VAE(Contrastive Analysis VAE)は、背景データセット(BG)と対象データセット(TG)の共通要因を分離することを目的とした変分自動エンコーダ(VAE)のファミリーである。
3つの医療応用と自然画像データセット(CelebA)における従来のCA-VAEs法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-12T14:52:21Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Auditing for Diversity using Representative Examples [17.016881905579044]
本稿では,ラベルのないデータセットの相違を近似する費用対効果のアプローチを提案する。
提案アルゴリズムは,データセットの要素と制御セットの要素のペアワイズ類似性を利用して近似を効果的にブートストラップする。
本稿では,データセットのサイズよりもはるかに小さい制御セットを用いることで,近似誤差を小さく抑えることができることを示す。
論文 参考訳(メタデータ) (2021-07-15T15:21:17Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Hyperparameter Optimization with Differentiable Metafeatures [5.586191108738563]
DMFBS(diffariable Metafeature-based Surrogate)と呼ばれるクロスデータセットサロゲートモデルを提案する。
既存のモデルとは対照的に、DMFBS i) は微分可能なメタ機能抽出器を統合し、i) は新規なマルチタスク損失を用いて最適化される。
DMFBSをHPOの3つの大規模メタデータセットの最近のモデルと比較し、平均10%の改善でその性能を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2021-02-07T11:06:31Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Probabilistic Contrastive Principal Component Analysis [0.5286651840245514]
比較主成分分析(CPCA)のモデルに基づく代替案を提案する。
CPCAに対するPCPCAのアドバンテージは、解釈性の向上、不確実性定量化、原理推論などである。
遺伝子発現、タンパク質発現、画像のデータセットを用いた一連のシミュレーションとケースコントロール実験によりPCPCAの性能を実証します。
論文 参考訳(メタデータ) (2020-12-14T22:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。