論文の概要: Aggregation as Unsupervised Learning and its Evaluation
- arxiv url: http://arxiv.org/abs/2110.15136v1
- Date: Thu, 28 Oct 2021 14:10:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 23:59:48.525140
- Title: Aggregation as Unsupervised Learning and its Evaluation
- Title(参考訳): 教師なし学習としての集合とその評価
- Authors: Maria Ulan, Welf L\"owe, Morgan Ericsson, Anna Wingkvist
- Abstract要約: 本稿では,他のアグリゲーションアプローチに対して提案手法を評価可能な経験的評価フレームワークを提案する。
UCI機械学習レポジトリからの回帰データセットを使用し、アグリゲーションのためのデータに依存しない、教師なしのアプローチをベンチマークする。
ベンチマークの結果,本手法は他のデータに依存しない,教師なしのアグリゲーション手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 9.109147994991229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Regression uses supervised machine learning to find a model that combines
several independent variables to predict a dependent variable based on ground
truth (labeled) data, i.e., tuples of independent and dependent variables
(labels). Similarly, aggregation also combines several independent variables to
a dependent variable. The dependent variable should preserve properties of the
independent variables, e.g., the ranking or relative distance of the
independent variable tuples, and/or represent a latent ground truth that is a
function of these independent variables. However, ground truth data is not
available for finding the aggregation model. Consequently, aggregation models
are data agnostic or can only be derived with unsupervised machine learning
approaches.
We introduce a novel unsupervised aggregation approach based on intrinsic
properties of unlabeled training data, such as the cumulative probability
distributions of the single independent variables and their mutual
dependencies.
We present an empirical evaluation framework that allows assessing the
proposed approach against other aggregation approaches from two perspectives:
(i) how well the aggregation output represents properties of the input tuples,
and (ii) how well can aggregated output predict a latent ground truth. To this
end, we use data sets for assessing supervised regression approaches that
contain explicit ground truth labels. However, the ground truth is not used for
deriving the aggregation models, but it allows for the assessment from a
perspective (ii). More specifically, we use regression data sets from the UCI
machine learning repository and benchmark several data-agnostic and
unsupervised approaches for aggregation against ours.
The benchmark results indicate that our approach outperforms the other
data-agnostic and unsupervised aggregation approaches. It is almost on par with
linear regression.
- Abstract(参考訳): レグレッションでは、教師付き機械学習を使用して、複数の独立変数を組み合わせて、基底真理(ラベル付き)データ、すなわち独立変数と依存変数(ラベル)のタプルに基づいて依存変数を予測するモデルを見つける。
同様に、アグリゲーションはいくつかの独立変数と依存変数を結合する。
従属変数は独立変数(例えば、独立変数タプルのランクや相対距離)のプロパティを保持し、/またはこれらの独立変数の関数である潜在基底真理を表現する。
しかし、集合モデルを見つけるには基底真理データは利用できない。
その結果、集約モデルはデータに依存しない、あるいは教師なし機械学習アプローチでのみ導出できる。
本研究では,単一独立変数の累積確率分布とその相互依存など,ラベル付きトレーニングデータの固有特性に基づく新しい教師なしアグリゲーション手法を提案する。
提案手法と他のアグリゲーションアプローチを2つの観点から評価できる実証評価フレームワークを提案する。
i)アグリゲーション出力が入力タプルの特性をどのように表現するか、そして
(ii) 集約された出力が潜在基底真理をいかにうまく予測できるか。
この目的のために、我々は、明確な基底真理ラベルを含む教師付き回帰アプローチを評価するためにデータセットを使用する。
しかし,集合モデルの導出には基礎的真理は用いられないが,視点からの評価が可能となる。
(ii)
より具体的には、uci機械学習リポジトリの回帰データセットを使用して、私たちに対するアグリゲーションのためのデータ非依存で教師なしのアプローチをいくつかベンチマークします。
ベンチマークの結果、我々のアプローチは、他のデータ非依存で教師なしのアグリゲーションアプローチよりも優れています。
これは線形回帰にほぼ匹敵する。
関連論文リスト
- Testing Independence of Exchangeable Random Variables [19.973896010415977]
十分なシャッフルデータがあれば、データ項目が統計的に(非)依存しているかどうかを判断できますか?
これは可能であることを示し、データが独立で同一に分散されているというヌル仮説を確実に拒否できるテストを開発する。
潜在的なアプリケーションはDeep Learningで、データはしばしばインターネット全体から取り除かれ、重複は多い。
論文 参考訳(メタデータ) (2022-10-22T08:55:48Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Equivariance and Invariance Inductive Bias for Learning from
Insufficient Data [65.42329520528223]
不十分なデータがモデルを、通常テストとは異なる限られたトレーニング環境にバイアスしやすくする理由が示されています。
従来のIRMにおける環境アノテーションの欠如を効果的に解決するクラスワイド不変リスク最小化(IRM)を提案する。
論文 参考訳(メタデータ) (2022-07-25T15:26:19Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - CARMS: Categorical-Antithetic-REINFORCE Multi-Sample Gradient Estimator [60.799183326613395]
本稿では, 相互に負に相関した複数のサンプルに基づく分類的確率変数の非バイアス推定器を提案する。
CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。
我々は、生成的モデリングタスクと構造化された出力予測タスクに基づいて、いくつかのベンチマークデータセット上でCARMSを評価し、強力な自己制御ベースラインを含む競合する手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-26T20:14:30Z) - Bayesian data combination model with Gaussian process latent variable
model for mixed observed variables under NMAR missingness [0.0]
興味のある変数を同時に観測する「(準)単一ソースデータセット」を得ることは困難である。
これらのデータセットは、変数が不足した単一ソースデータセットとして利用する必要がある。
本稿では,データセットが同種であると仮定しないデータ融合法を提案する。
論文 参考訳(メタデータ) (2021-09-01T16:09:55Z) - Statistical Estimation from Dependent Data [37.73584699735133]
本稿では,異なる観測領域にまたがるバイナリラベルが特徴ベクトル上で独立に条件付けられていないような一般的な統計的推定問題について考察する。
我々はこれらの依存関係をMarkov Random Fieldsの言語でモデル化する。
このモデルに対してアルゴリズムと統計的に効率的な推定率を提供する。
論文 参考訳(メタデータ) (2021-07-20T21:18:06Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - NestedVAE: Isolating Common Factors via Weak Supervision [45.366986365879505]
我々は、バイアス低減の課題と、ドメイン間で共通する分離要因の関係を同定する。
共通因子を分離するために、潜伏変数モデルの理論と情報ボトルネック理論を組み合わせる。
共有重みを持つ2つの外部VAEは入力を再構成し、潜伏空間を推論し、一方、ネストされたVAEはペア化された画像の潜伏表現から1つの画像の潜伏表現を再構成しようとする。
論文 参考訳(メタデータ) (2020-02-26T15:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。