論文の概要: Towards Label Embedding -- Measuring classification difficulty
- arxiv url: http://arxiv.org/abs/2311.08874v1
- Date: Wed, 15 Nov 2023 11:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:24:09.780228
- Title: Towards Label Embedding -- Measuring classification difficulty
- Title(参考訳): ラベル埋め込みに向けて -- 分類困難の測定
- Authors: Katharina Hechinger, Christoph Koller, Xiao Xiang Zhu, G\"oran
Kauermann
- Abstract要約: 衛星画像の分類を例に挙げる。
各画像は、複数のラベルラーによって独立して注釈付けされ、ローカル気候帯(LCZ)に分類される。
各インスタンスには複数の投票があり、単一の値ではなくラベルの配布につながります。
- 参考スコア(独自算出の注目度): 15.78884578132055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty quantification in machine learning is a timely and vast field of
research. In supervised learning, uncertainty can already occur in the very
first stage of the training process, the labelling step. In particular, this is
the case when not every instance can be unambiguously classified. The problem
occurs for classifying instances, where classes may overlap or instances can
not be clearly categorised. In other words, there is inevitable ambiguity in
the annotation step and not necessarily a 'ground truth'. We look exemplary at
the classification of satellite images. Each image is annotated independently
by multiple labellers and classified into local climate zones (LCZs). For each
instance we have multiple votes, leading to a distribution of labels rather
than a single value. The main idea of this work is that we do not assume a
ground truth label but embed the votes into a K-dimensional space, with K as
the number of possible categories. The embedding is derived from the voting
distribution in a Bayesian setup, modelled via a Dirichlet-Multinomial model.
We estimate the model and posteriors using a stochastic Expectation
Maximisation algorithm with Markov Chain Monte Carlo steps. While we focus on
the particular example of LCZ classification, the methods developed in this
paper readily extend to other situations where multiple annotators
independently label texts or images. We also apply our approach to two other
benchmark datasets for image classification to demonstrate this. Besides the
embeddings themselves, we can investigate the resulting correlation matrices,
which can be seen as generalised confusion matrices and reflect the semantic
similarities of the original classes very well for all three exemplary
datasets. The insights gained are valuable and can serve as general label
embedding if a single ground truth per observation cannot be guaranteed.
- Abstract(参考訳): 機械学習における不確かさの定量化は、タイムリーで広大な研究分野である。
教師付き学習では、トレーニングプロセスのごく最初の段階であるラベル付けステップでは、すでに不確実性が発生する可能性がある。
特に、全てのインスタンスが明確に分類できない場合である。
問題は、クラスがオーバーラップしたり、インスタンスが明確に分類できない場合のインスタンスの分類に発生する。
言い換えれば、アノテーションのステップには必然的に曖昧さがあり、必ずしも「根拠の真理」ではない。
衛星画像の分類を例に挙げる。
各画像は複数のラベラーによって独立に注釈され、地域気候区分 (lczs) に分類される。
各インスタンスには複数の投票があり、単一の値ではなくラベルの分布につながります。
この研究の主な考え方は、基底真理ラベルを仮定するのではなく、K を可算圏の個数とする K 次元空間に票を埋め込むことである。
埋め込みは、ディリクレ-多項モデルによってモデル化されたベイズ設定における投票分布に由来する。
マルコフ連鎖モンテカルロステップを用いた確率的期待最大化アルゴリズムを用いてモデルと後方推定を行った。
LCZ分類の特定の例に着目しながら,本論文で開発された手法は,テキストや画像に独立してアノテータをラベル付けする他の状況にも容易に適用できる。
また、画像分類のための他の2つのベンチマークデータセットにもアプローチを適用し、これを実証する。
埋め込み自体の他に、一般化された混乱行列と見なすことができる相関行列を調べ、元のクラスのセマンティックな類似性を3つの例データセットすべてによく反映することができる。
得られた洞察は価値があり、観測毎に単一の真実を保証できない場合、一般的なラベル埋め込みとして機能する。
関連論文リスト
- Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Learning with Proper Partial Labels [87.65718705642819]
部分ラベル学習は、不正確なラベルを持つ弱い教師付き学習の一種である。
この適切な部分ラベル学習フレームワークには,従来の部分ラベル学習設定が数多く含まれていることを示す。
次に、分類リスクの統一的非バイアス推定器を導出する。
論文 参考訳(メタデータ) (2021-12-23T01:37:03Z) - Instance-Dependent Partial Label Learning [69.49681837908511]
部分ラベル学習は、典型的には弱教師付き学習問題である。
既存のほとんどのアプローチでは、トレーニングサンプルの間違ったラベルがランダムに候補ラベルとして選択されていると仮定している。
本稿では,各例が実数で構成された潜在ラベル分布と関連していると仮定する。
論文 参考訳(メタデータ) (2021-10-25T12:50:26Z) - Multi-label Classification with Partial Annotations using Class-aware
Selective Loss [14.3159150577502]
大規模なマルチラベル分類データセットは、一般的に部分的に注釈付けされている。
部分的なラベリング問題を解析し、2つの重要なアイデアに基づいた解を提案する。
われわれの新しいアプローチにより、OpenImagesデータセット上で最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-10-21T08:10:55Z) - Distribution-Aware Semantics-Oriented Pseudo-label for Imbalanced
Semi-Supervised Learning [80.05441565830726]
本稿では,疑似ラベルの重み付けがモデル性能に悪影響を及ぼすような,不均衡な半教師付き学習に対処する。
本稿では,この観測の動機となるバイアスに対処する,一般的な擬似ラベルフレームワークを提案する。
不均衡SSLのための新しい擬似ラベルフレームワークを、DASO(Distributed-Aware Semantics-Oriented Pseudo-label)と呼ぶ。
論文 参考訳(メタデータ) (2021-06-10T11:58:25Z) - A Closer Look at Self-training for Zero-Label Semantic Segmentation [53.4488444382874]
トレーニング中に見られないクラスをセグメント化できることは、ディープラーニングにおいて重要な技術的課題です。
事前のゼロラベルセマンティクスセグメンテーションは、ビジュアル・セマンティクスの埋め込みや生成モデルを学ぶことによってこのタスクにアプローチする。
本研究では,同一画像の異なる増分から生じる擬似ラベルの交点を取り出し,ノイズの多い擬似ラベルをフィルタリングする整合性正規化器を提案する。
論文 参考訳(メタデータ) (2021-04-21T14:34:33Z) - Measuring Model Biases in the Absence of Ground Truth [2.802021236064919]
根拠となる真理ラベルに依存しない公平さと偏見の測定に新たなフレーミングを導入する。
代わりに、ある画像のモデル予測を、自然言語処理(NLP)で使用される「言葉の袋」アプローチに類似したラベルの集合として扱う。
異なる相関指標の統計的性質(特に正規化)が,「生成バイアス」が検出されるラベルの異なる集合にどのようにつながるかを実証する。
論文 参考訳(メタデータ) (2021-03-05T01:23:22Z) - Label Confusion Learning to Enhance Text Classification Models [3.0251266104313643]
ラベル混乱モデル(lcm)はラベル間の意味的重複を捉えるためにラベル混乱を学習する。
lcmは、元のホットラベルベクトルを置き換えるより優れたラベル分布を生成することができる。
5つのテキスト分類ベンチマークデータセットの実験により、広く使われているディープラーニング分類モデルに対するLCMの有効性が明らかにされた。
論文 参考訳(メタデータ) (2020-12-09T11:34:35Z) - Exemplar Guided Active Learning [13.084183663366824]
我々は、限られた予算を用いて、大規模な未ラベルデータセットの小さなサブセットをラベル付けする問題を賢明に検討する。
いずれにせよ、知識ベースから候補ラベルのセットがあるが、ラベルセットは必ずしもデータに何が起こるかを表すものではない。
本稿では,現代言語モデルが提供する文脈埋め込み空間を活用することで,希少なクラスを明示的に検索する能動的学習手法について述べる。
論文 参考訳(メタデータ) (2020-11-02T20:01:39Z) - Multi-Class Classification from Noisy-Similarity-Labeled Data [98.13491369929798]
雑音に類似したラベル付きデータのみから学習する方法を提案する。
ノイズ遷移行列を用いて、クリーンデータとノイズデータの間にクラス後確率をブリッジする。
雑音のないクラスラベルをインスタンスに割り当てる新しい学習システムを構築した。
論文 参考訳(メタデータ) (2020-02-16T05:10:21Z) - An interpretable semi-supervised classifier using two different
strategies for amended self-labeling [0.0]
半教師付き分類技術は、学習期間中にラベル付きデータとラベルなしデータを組み合わせる。
ブラックボックスを用いて,不足するクラスラベルとホワイトボックスを推定し,最終的な予測を説明する,解釈可能な自己ラベル付きグレーボックス分類器を提案する。
論文 参考訳(メタデータ) (2020-01-26T19:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。