論文の概要: Human-in-the-loop: Towards Label Embeddings for Measuring Classification Difficulty
- arxiv url: http://arxiv.org/abs/2311.08874v2
- Date: Mon, 27 May 2024 09:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 08:35:04.501146
- Title: Human-in-the-loop: Towards Label Embeddings for Measuring Classification Difficulty
- Title(参考訳): Human-in-the-loop: 分類困難度測定のためのラベル埋め込みに向けて
- Authors: Katharina Hechinger, Christoph Koller, Xiao Xiang Zhu, Göran Kauermann,
- Abstract要約: 教師付き学習では、トレーニングプロセスの第1段階、つまりアノテーションフェーズにおいて、すでに不確実性が発生する可能性がある。
この研究の主な考え方は、基礎となる真理ラベルの仮定を捨て、代わりにアノテーションを多次元空間に埋め込むことである。
本稿では,複数のアノテータが独立してインスタンスをラベル付けする,様々な状況に展開する手法を提案する。
- 参考スコア(独自算出の注目度): 14.452983136429967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty in machine learning models is a timely and vast field of research. In supervised learning, uncertainty can already occur in the first stage of the training process, the annotation phase. This scenario is particularly evident when some instances cannot be definitively classified. In other words, there is inevitable ambiguity in the annotation step and hence, not necessarily a "ground truth" associated with each instance. The main idea of this work is to drop the assumption of a ground truth label and instead embed the annotations into a multidimensional space. This embedding is derived from the empirical distribution of annotations in a Bayesian setup, modeled via a Dirichlet-Multinomial framework. We estimate the model parameters and posteriors using a stochastic Expectation Maximization algorithm with Markov Chain Monte Carlo steps. The methods developed in this paper readily extend to various situations where multiple annotators independently label instances. To showcase the generality of the proposed approach, we apply our approach to three benchmark datasets for image classification and Natural Language Inference. Besides the embeddings, we can investigate the resulting correlation matrices, which reflect the semantic similarities of the original classes very well for all three exemplary datasets.
- Abstract(参考訳): 機械学習モデルの不確実性は、タイムリーで広大な研究分野である。
教師付き学習では、トレーニングプロセスの第1段階、つまりアノテーションフェーズにおいて、すでに不確実性が発生する可能性がある。
このシナリオは、いくつかのインスタンスが決定的に分類できない場合に特に顕著である。
言い換えれば、アノテーションのステップには必然的な曖昧さがあり、したがって、各インスタンスに関連する「基底真理」が必ずしも必要ではない。
この研究の主な考え方は、基礎となる真理ラベルの仮定を捨て、代わりにアノテーションを多次元空間に埋め込むことである。
この埋め込みは、Dirichlet-Multinomialフレームワークを用いてモデル化されたベイズ的な設定におけるアノテーションの実証的な分布から導かれる。
マルコフ・チェイン・モンテカルロステップを用いた確率的予測最大化アルゴリズムを用いてモデルパラメータと後部を推定する。
本稿では,複数のアノテータが独立してインスタンスをラベル付けする,様々な状況に展開する手法を提案する。
提案手法の一般性を示すために,提案手法を画像分類と自然言語推論のための3つのベンチマークデータセットに適用する。
埋め込みの他に、元のクラスのセマンティックな類似性を反映した相関行列を3つの例のデータセットすべてに対してよく調べることができる。
関連論文リスト
- SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning [49.94607673097326]
ラベルなしデータの分散に関する前提を前提としない、高度に適応可能なフレームワークをSimProとして提案する。
我々のフレームワークは確率モデルに基づいており、期待最大化アルゴリズムを革新的に洗練する。
本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-21T03:39:04Z) - Memory Consistency Guided Divide-and-Conquer Learning for Generalized
Category Discovery [56.172872410834664]
一般カテゴリー発見(GCD)は、半教師付き学習のより現実的で挑戦的な設定に対処することを目的としている。
メモリ一貫性を誘導する分枝・分枝学習フレームワーク(MCDL)を提案する。
本手法は,画像認識の目に見えるクラスと見えないクラスの両方において,最先端のモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-24T09:39:45Z) - Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias [5.698050337128548]
半教師付き学習において、自己学習はよく知られたアプローチである。モデルが自信を持ってラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。
ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過度に信頼されていることが知られている。
本稿では,線形分類器のアンサンブルの予測多様性に基づいて,$mathcalT$-similarityと呼ばれる新しい信頼度尺度を提案する。
論文 参考訳(メタデータ) (2023-10-23T11:30:06Z) - Weakly Supervised 3D Instance Segmentation without Instance-level
Annotations [57.615325809883636]
3Dセマンティックシーン理解タスクは、ディープラーニングの出現によって大きな成功を収めた。
本稿では,分類的セマンティックラベルのみを監督対象とする,弱制御型3Dインスタンスセマンティクス手法を提案する。
分類的セマンティックラベルから擬似インスタンスラベルを生成することで,アノテーションコストの低減で既存の3Dインスタンスセグメンテーションの学習を支援することができる。
論文 参考訳(メタデータ) (2023-08-03T12:30:52Z) - Realistic Evaluation of Transductive Few-Shot Learning [41.06192162435249]
トランスダクティブ推論は、数ショットの学習で広く使われている。
推論における少数ショットタスクの問合せセット内における任意のクラス分布の効果について検討する。
我々は,3つの広く使用されているデータセットに対して,最先端のトランスダクティブ手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-04-24T03:35:06Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - Self-Training: A Survey [5.772546394254112]
半教師付きアルゴリズムは、ラベル付き観測の小さなセットとラベルなし観測の大きなセットから予測関数を学習することを目的としている。
近年,自己学習手法が注目されていることは確かである。
本稿では,バイナリクラスとマルチクラス分類のための自己学習手法と,その変種と関連する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-24T11:40:44Z) - Smoothed Embeddings for Certified Few-Shot Learning [63.68667303948808]
我々はランダムな平滑化を数ショットの学習モデルに拡張し、入力を正規化された埋め込みにマッピングする。
この結果は、異なるデータセットの実験によって確認される。
論文 参考訳(メタデータ) (2022-02-02T18:19:04Z) - Entropy-Based Uncertainty Calibration for Generalized Zero-Shot Learning [49.04790688256481]
一般化ゼロショット学習(GZSL)の目的は、目に見えないクラスと見えないクラスの両方を認識することである。
ほとんどのGZSLメソッドは、通常、見えないクラスの意味情報から視覚表現を合成することを学ぶ。
本論文では,三重項損失を持つ2重変分オートエンコーダを利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-09T05:21:27Z) - Towards Cross-Granularity Few-Shot Learning: Coarse-to-Fine
Pseudo-Labeling with Visual-Semantic Meta-Embedding [13.063136901934865]
少ないショットラーニングは、テスト時に少数のサンプルしか持たない、新しいカテゴリに迅速に適応することを目的としている。
本稿では,より困難なシナリオ,すなわちクロスグラニュラリティ・グラニュラリティ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラ
画像埋め込みの類似性に応じて,各粗いクラスを擬似微細クラスにグリーディクラスタリングすることで,詳細なデータ分布を近似する。
論文 参考訳(メタデータ) (2020-07-11T03:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。