論文の概要: Multi-label classification: do Hamming loss and subset accuracy really
conflict with each other?
- arxiv url: http://arxiv.org/abs/2011.07805v1
- Date: Mon, 16 Nov 2020 09:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 23:39:13.348406
- Title: Multi-label classification: do Hamming loss and subset accuracy really
conflict with each other?
- Title(参考訳): マルチラベル分類:ハミング損失とサブセット精度は本当に相反するのか?
- Authors: Guoqiang Wu, Jun Zhu
- Abstract要約: ラベル空間が大きすぎると、そのサロゲート損失でHLを最適化することは、SAにとって有望な性能を持つことを示す。
本手法は,アルゴリズムの学習保証を,ランク付け損失などの他の尺度で分析するために応用できる。
- 参考スコア(独自算出の注目度): 31.616965301725557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various evaluation measures have been developed for multi-label
classification, including Hamming Loss (HL), Subset Accuracy (SA) and Ranking
Loss (RL). However, there is a gap between empirical results and the existing
theories: 1) an algorithm often empirically performs well on some measure(s)
while poorly on others, while a formal theoretical analysis is lacking; and 2)
in small label space cases, the algorithms optimizing HL often have comparable
or even better performance on the SA measure than those optimizing SA directly,
while existing theoretical results show that SA and HL are conflicting
measures. This paper provides an attempt to fill up this gap by analyzing the
learning guarantees of the corresponding learning algorithms on both SA and HL
measures. We show that when a learning algorithm optimizes HL with its
surrogate loss, it enjoys an error bound for the HL measure independent of $c$
(the number of labels), while the bound for the SA measure depends on at most
$O(c)$. On the other hand, when directly optimizing SA with its surrogate loss,
it has learning guarantees that depend on $O(\sqrt{c})$ for both HL and SA
measures. This explains the observation that when the label space is not large,
optimizing HL with its surrogate loss can have promising performance for SA. We
further show that our techniques are applicable to analyze the learning
guarantees of algorithms on other measures, such as RL. Finally, the
theoretical analyses are supported by experimental results.
- Abstract(参考訳): マルチラベル分類では、ハミング損失(hl)、サブセット精度(sa)、ランキング損失(rl)など様々な評価手法が開発されている。
しかし、経験的な結果と既存の理論の間にはギャップがある。
1) 公式な理論的分析が欠如している一方で,アルゴリズムは,ある尺度に対して実験的によく機能することが多い。
2) ラベル空間の場合, HL を最適化するアルゴリズムは SA を最適化するアルゴリズムとSA を直接最適化するアルゴリズムと同等あるいはそれ以上の性能を持つことが多いが, 既存の理論的結果は SA と HL が矛盾していることを示している。
本稿では,SA と HL の双方で対応する学習アルゴリズムの学習保証を解析することにより,このギャップを埋める試みを示す。
学習アルゴリズムがそのサロゲート損失でHLを最適化すると、HL測度が$c$(ラベル数)に依存しないエラーバウンドを享受し、SA測度に対するバウンドは少なくとも$O(c)$に依存することを示した。
一方、サロゲート損失でSAを直接最適化する場合、HLとSAの両測度に対して$O(\sqrt{c})$に依存する学習保証がある。
これはラベル空間が大きくない場合、そのサーロゲート損失によるhlの最適化がsaに有望な性能をもたらすという観測を説明する。
さらに,本手法は,RLなどの他の手法によるアルゴリズムの学習保証の分析に適用可能であることを示す。
最後に、理論解析は実験結果によって支持される。
関連論文リスト
- On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - Can semi-supervised learning use all the data effectively? A lower bound
perspective [58.71657561857055]
半教師付き学習アルゴリズムはラベル付きデータを利用して教師付き学習アルゴリズムのラベル付きサンプル複雑性を改善することができることを示す。
我々の研究は、SSLアルゴリズムのパフォーマンス向上を証明することは可能だが、定数の注意深く追跡する必要があることを示唆している。
論文 参考訳(メタデータ) (2023-11-30T13:48:50Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - Stochastic Average Gradient : A Simple Empirical Investigation [0.0]
平均勾配 (SAG) は有限個の滑らかな関数の和を最適化する手法である。
SAGは、単純な玩具問題において、他のイテレーションよりも早く収束し、単純な機械学習問題において、他の多くのイテレーションよりも優れたパフォーマンスを発揮する。
また,運動量アルゴリズムとAdamを組み合わせたSAGを提案する。
論文 参考訳(メタデータ) (2023-07-27T17:34:26Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - Rethinking and Reweighting the Univariate Losses for Multi-Label
Ranking: Consistency and Generalization [44.73295800450414]
(部分)ランキング損失は、マルチラベル分類の一般的な評価尺度です。
既存の理論と実践の間にはギャップがある -- ペアワイズな損失は有望なパフォーマンスをもたらすが一貫性を欠く可能性がある。
論文 参考訳(メタデータ) (2021-05-10T09:23:27Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。