論文の概要: Generalized test utilities for long-tail performance in extreme
multi-label classification
- arxiv url: http://arxiv.org/abs/2311.05081v1
- Date: Thu, 9 Nov 2023 00:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:33:45.804495
- Title: Generalized test utilities for long-tail performance in extreme
multi-label classification
- Title(参考訳): 極端多ラベル分類におけるロングテール性能のための一般化テストユーティリティ
- Authors: Erik Schultheis, Marek Wydmuch, Wojciech Kot{\l}owski, Rohit Babbar,
Krzysztof Dembczy\'nski
- Abstract要約: Extreme Multi-label classification (XMLC)は、非常に大きなラベルセットから関連するラベルの小さなサブセットを選択するタスクである。
尾部の正確な予測はより面白く、あるいは報われているとしばしば主張されるが、コミュニティはまだこの直感的な概念を捉える指標に決着をつけていない。
本稿では,代替手法として「at k」を予算とした一般化メトリクスを解析する。
我々は、最適予測規則を導出し、証明可能な後悔の保証とモデルの誤特定に対する堅牢性を備えた計算効率の良い近似を構築する。
- 参考スコア(独自算出の注目度): 10.054627658877733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extreme multi-label classification (XMLC) is the task of selecting a small
subset of relevant labels from a very large set of possible labels. As such, it
is characterized by long-tail labels, i.e., most labels have very few positive
instances. With standard performance measures such as precision@k, a classifier
can ignore tail labels and still report good performance. However, it is often
argued that correct predictions in the tail are more interesting or rewarding,
but the community has not yet settled on a metric capturing this intuitive
concept. The existing propensity-scored metrics fall short on this goal by
confounding the problems of long-tail and missing labels. In this paper, we
analyze generalized metrics budgeted "at k" as an alternative solution. To
tackle the challenging problem of optimizing these metrics, we formulate it in
the expected test utility (ETU) framework, which aims at optimizing the
expected performance on a fixed test set. We derive optimal prediction rules
and construct computationally efficient approximations with provable regret
guarantees and robustness against model misspecification. Our algorithm, based
on block coordinate ascent, scales effortlessly to XMLC problems and obtains
promising results in terms of long-tail performance.
- Abstract(参考訳): Extreme Multi-label classification (XMLC)は、非常に大きなラベルセットから関連するラベルの小さなサブセットを選択するタスクである。
そのため、長い尾のラベルが特徴であり、ほとんどのラベルには正の例がほとんどない。
precision@kのような標準的なパフォーマンス対策では、分類器はテールラベルを無視し、良いパフォーマンスを報告できる。
しかし、尾部の正確な予測はより面白く、あるいは報われているとしばしば主張されるが、コミュニティはまだこの直感的な概念を捉える指標に決着をつけていない。
既存の適合度スコア付きメトリクスは、長いラベルと欠落ラベルの問題を埋め合わせることで、この目標を達成できない。
本稿では,代替手法として「at k」を予算とした一般化メトリクスを解析する。
これらのメトリクスを最適化する難しい問題に対処するため、固定されたテストセット上での期待性能の最適化を目的とした、期待テストユーティリティ(ETU)フレームワークでこれを定式化する。
最適予測規則を導出し,モデルの誤特定に対する証明可能な後悔保証と頑健性を備えた計算効率のよい近似を構築する。
ブロック座標の昇華に基づくアルゴリズムは、XMLC問題に懸命にスケールし、ロングテール性能の観点から有望な結果を得る。
関連論文リスト
- A Debiased Nearest Neighbors Framework for Multi-Label Text Classification [13.30576550077694]
マルチラベルテキスト分類(MLTC)のためのDebiased Nearest Neighbors(DENN)フレームワークについて紹介する。
組込みアライメントバイアスに対処するために,ラベル共起における近傍の一貫性を向上する,非バイアス付きコントラスト学習戦略を提案する。
信頼度推定バイアスには,$k$NNの予測と帰納的二分分類の適応的組み合わせを改善し,偏りのある信頼度推定戦略を提案する。
論文 参考訳(メタデータ) (2024-08-06T14:00:23Z) - Consistent algorithms for multi-label classification with macro-at-$k$ metrics [5.404202957668374]
各ラベルに別々に適用されたバイナリ分類ユーティリティの和に線形に分解可能なメトリクスに焦点をあてる。
これらの"macro-at-k$"メトリクスは、長い尾ラベルを持つ極端な分類問題に対して望ましい性質を持っている。
本稿では,Frank-Wolfe法に基づく統計的に一貫した実践的学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-29T21:51:27Z) - Optimizing Partial Area Under the Top-k Curve: Theory and Practice [151.5072746015253]
トップk曲線下部分領域(AUTKC)と呼ばれる新しい計量法を開発した。
AUTKCはより優れた識別能力を持ち、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランクを与えることができる。
提案手法を最適化するために,実証的なサロゲートリスク最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-03T11:09:13Z) - Long-tailed Extreme Multi-label Text Classification with Generated
Pseudo Label Descriptions [28.416742933744942]
本稿では,新しい手法を提案することで,テールラベル予測の課題に対処する。
これは、厳しいデータ不足条件下で情報ラベル記述を生成するための訓練されたbacker-of-words(BoW)分類器の有効性を組み合わせたものである。
提案手法はXMTCベンチマークデータセット上での最先端性能を実現し,これまでで最高の手法であるテールラベル予測を著しく上回っている。
論文 参考訳(メタデータ) (2022-04-02T23:42:32Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Unbiased Loss Functions for Multilabel Classification with Missing
Labels [2.1549398927094874]
欠落ラベルは、極端なマルチラベル分類(XMC)タスクにおいてユビキタスな現象である。
本稿では,異なるマルチラベルリダクションに対する特異な非バイアス推定器を導出する。
論文 参考訳(メタデータ) (2021-09-23T10:39:02Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Robust Long-Tailed Learning under Label Noise [50.00837134041317]
本研究では,長期ラベル分布におけるラベルノイズ問題について検討する。
本稿では,長期学習のための雑音検出を実現する頑健なフレームワークAlgoを提案する。
我々のフレームワークは、半教師付き学習アルゴリズムを自然に活用して一般化をさらに改善することができる。
論文 参考訳(メタデータ) (2021-08-26T03:45:00Z) - Coping with Label Shift via Distributionally Robust Optimisation [72.80971421083937]
分散ロバスト最適化(DRO)に基づく目的最小化モデルを提案する。
そこで我々は,提案した目的を最適化するために,大規模問題に適した勾配降下近位ミラー上昇アルゴリズムを設計し,解析する。
論文 参考訳(メタデータ) (2020-10-23T08:33:04Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Unbiased Loss Functions for Extreme Classification With Missing Labels [1.6011907050002954]
極端なマルチラベル分類(XMC)の目標は、非常に大きなラベルのセットから、関連するラベルの小さなサブセットでインスタンスをタグ付けすることである。
本研究では,ラベルを分解する損失関数の一般定式化のための非バイアス推定器を導出する。
抽出された非バイアス推定器は、極端分類のための最先端アルゴリズムに容易に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-07-01T04:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。