論文の概要: Unsupervised Learning under Latent Label Shift
- arxiv url: http://arxiv.org/abs/2207.13179v1
- Date: Tue, 26 Jul 2022 20:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:05:39.110101
- Title: Unsupervised Learning under Latent Label Shift
- Title(参考訳): ラベルシフトによる教師なし学習
- Authors: Manley Roberts, Pranav Mani, Saurabh Garg, Zachary C. Lipton
- Abstract要約: ラテントラベルシフト(LLS)における教師なし学習の導入
提案アルゴリズムは, ドメイン情報を利用して, 教師なし分類手法の状況を改善することができることを示す。
- 参考スコア(独自算出の注目度): 21.508249151557244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What sorts of structure might enable a learner to discover classes from
unlabeled data? Traditional approaches rely on feature-space similarity and
heroic assumptions on the data. In this paper, we introduce unsupervised
learning under Latent Label Shift (LLS), where we have access to unlabeled data
from multiple domains such that the label marginals $p_d(y)$ can shift across
domains but the class conditionals $p(\mathbf{x}|y)$ do not. This work
instantiates a new principle for identifying classes: elements that shift
together group together. For finite input spaces, we establish an isomorphism
between LLS and topic modeling: inputs correspond to words, domains to
documents, and labels to topics. Addressing continuous data, we prove that when
each label's support contains a separable region, analogous to an anchor word,
oracle access to $p(d|\mathbf{x})$ suffices to identify $p_d(y)$ and
$p_d(y|\mathbf{x})$ up to permutation. Thus motivated, we introduce a practical
algorithm that leverages domain-discriminative models as follows: (i) push
examples through domain discriminator $p(d|\mathbf{x})$; (ii) discretize the
data by clustering examples in $p(d|\mathbf{x})$ space; (iii) perform
non-negative matrix factorization on the discrete data; (iv) combine the
recovered $p(y|d)$ with the discriminator outputs $p(d|\mathbf{x})$ to compute
$p_d(y|x) \; \forall d$. With semi-synthetic experiments, we show that our
algorithm can leverage domain information to improve state of the art
unsupervised classification methods. We reveal a failure mode of standard
unsupervised classification methods when feature-space similarity does not
indicate true groupings, and show empirically that our method better handles
this case. Our results establish a deep connection between distribution shift
and topic modeling, opening promising lines for future work.
- Abstract(参考訳): ラベルのないデータから学習者がクラスを発見できる構造はどのようなものか?
従来のアプローチは、データに特徴空間の類似性と英雄的な仮定に依存する。
本稿では,遅延ラベルシフト (lls) 下で教師なし学習を導入することにより,複数の領域からラベルなしのデータにアクセスでき,そのラベルの限界値 $p_d(y)$ は領域をまたいでシフトできるが,クラス条件値 $p(\mathbf{x}|y)$ はしない。
この作業は、クラスを識別するための新しい原則である、グループを一緒にシフトする要素をインスタンス化する。
有限入力空間に対して、LSSとトピックモデリングの同型を確立し、入力は単語、ドメイン、ドキュメント、およびトピックのラベルに対応する。
連続データに対処するため、各ラベルのサポートがアンカーワードに類似した分離可能な領域を含んでいる場合、oracleは$p(d|\mathbf{x})$ sufficesにアクセスして$p_d(y)$と$p_d(y|\mathbf{x})$を順列に識別する。
そこで本研究では,ドメイン識別モデルを利用した実践的アルゴリズムを提案する。
(i) ドメイン判別子 $p(d|\mathbf{x})$;
(ii)$p(d|\mathbf{x})$ space の例をクラスタリングしてデータを離散化する。
(iii) 離散データ上で非負行列分解を行う。
(iv) 回収された$p(y|d)$と判別器出力の$p(d|\mathbf{x})$を組み合わせ、$p_d(y|x) \; \forall d$を計算する。
半合成実験により,本アルゴリズムは領域情報を利用して非教師付き分類手法の状態を改善することができることを示す。
特徴空間の類似性が真のグループ化を示さない場合,標準非教師なし分類法の故障モードを明らかにし,本手法がよりうまく対応できることを実証的に示す。
この結果から,分散シフトとトピックモデリングの深い関係が確立され,今後の作業に期待できるラインが開かれる。
関連論文リスト
- IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。
IT$3$は、イデオロジェンスの普遍性に基づいている。
画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。
我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - One-Bit Quantization and Sparsification for Multiclass Linear Classification with Strong Regularization [18.427215139020625]
最高の分類は、$f(cdot) = |cdot|2$ と $lambda to infty$ によって達成されることを示す。
f(cdot) = |cdot|_infty$ とほぼ同等に機能するスパースと1ビットの解を見つけることは、大きめの $lambda$ regime においてしばしば可能である。
論文 参考訳(メタデータ) (2024-02-16T06:39:40Z) - Testable Learning with Distribution Shift [9.036777309376697]
分散シフトを伴うテスト可能学習と呼ばれる新しいモデルを定義する。
テスト分布上の分類器の性能を証明可能なアルゴリズムを得る。
ハーフスペースやハーフスペースの交点,決定木といった概念クラスを学ぶ上で,いくつかの肯定的な結果が得られる。
論文 参考訳(メタデータ) (2023-11-25T23:57:45Z) - Statistical learning on measures: an application to persistence diagrams [0.0]
有限次元ユークリッド空間にデータを持つ代わりに、コンパクト空間 $mathcalX$ の測度を観測するバイナリ教師付き学習分類問題を考える。
当社のフレームワークは,私たちが対処可能な入力データに対して,より柔軟性と多様性を実現しています。
このようなフレームワークは多くの可能なアプリケーションを持っていますが、この作業は永続図と呼ばれるトポロジ的記述子によるデータの分類に強く重点を置いています。
論文 参考訳(メタデータ) (2023-03-15T09:01:37Z) - HappyMap: A Generalized Multi-calibration Method [23.086009024383024]
マルチキャリブレーション(英: Multi-calibration)はアルゴリズムフェアネスの分野を起源とする、強力で進化した概念である。
この研究では、$(f(x)-y)$ という用語を1つの特定の写像とみなし、豊かなクラスの写像のパワーを探求する。
マルチキャリブレーションを一般化したtextitHappyMap を提案する。
論文 参考訳(メタデータ) (2023-03-08T05:05:01Z) - Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact
Supervision [53.530957567507365]
実世界のタスクでは、各トレーニングサンプルは、1つの基底真実ラベルといくつかの偽陽性ラベルを含む候補ラベルセットに関連付けられている。
本稿では,Multi-instance partial-label learning (MIPL) などの問題を定式化する。
既存のマルチインスタンス学習アルゴリズムと部分ラベル学習アルゴリズムはMIPL問題の解法に最適である。
論文 参考訳(メタデータ) (2022-12-18T03:28:51Z) - Beyond Invariance: Test-Time Label-Shift Adaptation for Distributions
with "Spurious" Correlations [44.99833362998488]
テスト時のデータ分散の変化は、予測モデルのパフォーマンスに有害な影響を及ぼす可能性がある。
本研究では,未ラベルサンプルに適用したEMを用いて,共同分布の$p(y, z)$の変化に適応するテストタイムラベルシフト補正を提案する。
論文 参考訳(メタデータ) (2022-11-28T18:52:33Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - Neural Bayes: A Generic Parameterization Method for Unsupervised
Representation Learning [175.34232468746245]
本稿ではニューラルベイズと呼ばれるパラメータ化手法を提案する。
これは一般に計算が難しい統計量の計算を可能にする。
このパラメータ化のための2つの独立したユースケースを示す。
論文 参考訳(メタデータ) (2020-02-20T22:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。