論文の概要: Capturing patterns of variation unique to a specific dataset
- arxiv url: http://arxiv.org/abs/2104.08157v1
- Date: Fri, 16 Apr 2021 15:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 18:47:39.438094
- Title: Capturing patterns of variation unique to a specific dataset
- Title(参考訳): 特定のデータセット特有の変動パターンをキャプチャする
- Authors: Robin Tu, Alexander H. Foss, Sihai D. Zhao
- Abstract要約: 対象データセットの1つ以上の比較データセットに対する低次元表現を同定するチューニングフリー手法を提案する。
複数の実験で、単一のバックグラウンドデータセットを持つUCAが、様々なチューニングパラメータを持つcPCAと同じような結果を達成することを示しました。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capturing patterns of variation present in a dataset is important in
exploratory data analysis and unsupervised learning. Contrastive dimension
reduction methods, such as contrastive principal component analysis (cPCA),
find patterns unique to a target dataset of interest by contrasting with a
carefully chosen background dataset representing unwanted or uninteresting
variation. However, such methods typically require a tuning parameter that
governs the level of contrast, and it is unclear how to choose this parameter
objectively. Furthermore, it is frequently of interest to contrast against
multiple backgrounds, which is difficult to accomplish with existing methods.
We propose unique component analysis (UCA), a tuning-free method that
identifies low-dimensional representations of a target dataset relative to one
or more comparison datasets. It is computationally efficient even with large
numbers of features. We show in several experiments that UCA with a single
background dataset achieves similar results compared to cPCA with various
tuning parameters, and that UCA with multiple individual background datasets is
superior to both cPCA with any single background data and cPCA with a pooled
background dataset.
- Abstract(参考訳): 探索的データ分析と教師なし学習では,データセットに存在する変動パターンを捉えることが重要である。
対照的な主成分分析(cPCA)のような対照的な次元削減手法は、意図しない、あるいは興味のない変動を表す慎重に選択された背景データセットと対比することにより、対象とする関心のデータセットに固有のパターンを見つける。
しかし、そのような方法は通常、コントラストのレベルを規定するチューニングパラメータを必要とし、このパラメータを客観的に選択する方法は不明である。
さらに、既存の手法では達成が難しい複数の背景と対比することは、しばしば関心がある。
本研究では,1つ以上の比較データセットに対して,対象データセットの低次元表現を識別する一意成分分析(UCA)を提案する。
多数の特徴があっても計算効率が良い。
いくつかの実験において、単一のバックグラウンドデータセットを持つUCAは、様々なチューニングパラメータを持つcPCAと比較して同様の結果が得られることを示し、複数のバックグラウンドデータセットを持つUCAは、単一のバックグラウンドデータを持つcPCAと、プールされたバックグラウンドデータセットを持つcPCAの両方よりも優れていることを示した。
関連論文リスト
- Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。
これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。
マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T00:59:19Z) - RepMatch: Quantifying Cross-Instance Similarities in Representation Space [15.215985417763472]
類似性のレンズを通してデータを特徴付ける新しい手法であるRepMatchを紹介する。
RepMatchは、トレーニングインスタンスのサブセット間の類似性を、トレーニングされたモデルにエンコードされた知識と比較することによって定量化する。
複数のNLPタスク、データセット、モデルにまたがるRepMatchの有効性を検証する。
論文 参考訳(メタデータ) (2024-10-12T20:42:28Z) - Quantifying Spuriousness of Biased Datasets Using Partial Information Decomposition [14.82261635235695]
純粋パターン(spurious pattern)とは、因果関係のないデータセットにおける2つ以上の変数間の数学的関連である。
本研究は,PID(Partial Information Decomposition)と呼ばれる数学的枠組みを用いて,データセット(スプリアス特徴とコア特徴の分割を含む)におけるスプリアス性の最初の情報理論的な定式化を提示する。
我々は、刺激的特徴と中核的特徴が他の対象変数について共有する結合情報内容、すなわちユニーク、冗長、シナジスティックな情報を分離する。
論文 参考訳(メタデータ) (2024-06-29T16:05:47Z) - Diversity Measurement and Subset Selection for Instruction Tuning
Datasets [40.930387018872786]
決定点プロセスを用いて、サブセット選択のための命令チューニングデータセットの多様性と品質をキャプチャする。
興味のあるデータセットと最も多様な参照データセットとの距離であるログ決定距離でデータセットの多様性を測定することを提案する。
論文 参考訳(メタデータ) (2024-02-04T02:09:43Z) - SepVAE: a contrastive VAE to separate pathological patterns from healthy ones [2.619659560375341]
コントラスト分析VAE(Contrastive Analysis VAE)は、背景データセット(BG)と対象データセット(TG)の共通要因を分離することを目的とした変分自動エンコーダ(VAE)のファミリーである。
3つの医療応用と自然画像データセット(CelebA)における従来のCA-VAEs法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-12T14:52:21Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Auditing for Diversity using Representative Examples [17.016881905579044]
本稿では,ラベルのないデータセットの相違を近似する費用対効果のアプローチを提案する。
提案アルゴリズムは,データセットの要素と制御セットの要素のペアワイズ類似性を利用して近似を効果的にブートストラップする。
本稿では,データセットのサイズよりもはるかに小さい制御セットを用いることで,近似誤差を小さく抑えることができることを示す。
論文 参考訳(メタデータ) (2021-07-15T15:21:17Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。