論文の概要: Multi-label classification: do Hamming loss and subset accuracy really
conflict with each other?
- arxiv url: http://arxiv.org/abs/2011.07805v1
- Date: Mon, 16 Nov 2020 09:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 23:39:13.348406
- Title: Multi-label classification: do Hamming loss and subset accuracy really
conflict with each other?
- Title(参考訳): マルチラベル分類:ハミング損失とサブセット精度は本当に相反するのか?
- Authors: Guoqiang Wu, Jun Zhu
- Abstract要約: ラベル空間が大きすぎると、そのサロゲート損失でHLを最適化することは、SAにとって有望な性能を持つことを示す。
本手法は,アルゴリズムの学習保証を,ランク付け損失などの他の尺度で分析するために応用できる。
- 参考スコア(独自算出の注目度): 31.616965301725557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various evaluation measures have been developed for multi-label
classification, including Hamming Loss (HL), Subset Accuracy (SA) and Ranking
Loss (RL). However, there is a gap between empirical results and the existing
theories: 1) an algorithm often empirically performs well on some measure(s)
while poorly on others, while a formal theoretical analysis is lacking; and 2)
in small label space cases, the algorithms optimizing HL often have comparable
or even better performance on the SA measure than those optimizing SA directly,
while existing theoretical results show that SA and HL are conflicting
measures. This paper provides an attempt to fill up this gap by analyzing the
learning guarantees of the corresponding learning algorithms on both SA and HL
measures. We show that when a learning algorithm optimizes HL with its
surrogate loss, it enjoys an error bound for the HL measure independent of $c$
(the number of labels), while the bound for the SA measure depends on at most
$O(c)$. On the other hand, when directly optimizing SA with its surrogate loss,
it has learning guarantees that depend on $O(\sqrt{c})$ for both HL and SA
measures. This explains the observation that when the label space is not large,
optimizing HL with its surrogate loss can have promising performance for SA. We
further show that our techniques are applicable to analyze the learning
guarantees of algorithms on other measures, such as RL. Finally, the
theoretical analyses are supported by experimental results.
- Abstract(参考訳): マルチラベル分類では、ハミング損失(hl)、サブセット精度(sa)、ランキング損失(rl)など様々な評価手法が開発されている。
しかし、経験的な結果と既存の理論の間にはギャップがある。
1) 公式な理論的分析が欠如している一方で,アルゴリズムは,ある尺度に対して実験的によく機能することが多い。
2) ラベル空間の場合, HL を最適化するアルゴリズムは SA を最適化するアルゴリズムとSA を直接最適化するアルゴリズムと同等あるいはそれ以上の性能を持つことが多いが, 既存の理論的結果は SA と HL が矛盾していることを示している。
本稿では,SA と HL の双方で対応する学習アルゴリズムの学習保証を解析することにより,このギャップを埋める試みを示す。
学習アルゴリズムがそのサロゲート損失でHLを最適化すると、HL測度が$c$(ラベル数)に依存しないエラーバウンドを享受し、SA測度に対するバウンドは少なくとも$O(c)$に依存することを示した。
一方、サロゲート損失でSAを直接最適化する場合、HLとSAの両測度に対して$O(\sqrt{c})$に依存する学習保証がある。
これはラベル空間が大きくない場合、そのサーロゲート損失によるhlの最適化がsaに有望な性能をもたらすという観測を説明する。
さらに,本手法は,RLなどの他の手法によるアルゴリズムの学習保証の分析に適用可能であることを示す。
最後に、理論解析は実験結果によって支持される。
関連論文リスト
- A Theory for Token-Level Harmonization in Retrieval-Augmented Generation [76.75124161306795]
Retrieval-augmented Generation (RAG)は、検索したテキストを利用して大規模言語モデル(LLM)を強化する。
本稿では,RAGの利益と有害性を説明するための理論を提供する。
提案手法は,本理論に基づいて,純粋LLMとRAGの協調生成を実現する実用的手法であるTok-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-03T02:56:14Z) - $\ell_1$-Regularized Generalized Least Squares [0.0]
我々は、持続的な自己回帰的誤りを許容するフレームワークにおいて、推定精度の非漸近オラクル不等式を確立する。
シミュレーション実験により提案手法の性能を検証し, 白色雑音の場合には, GLS-LASSO推定器がLASSOと同等に動作することを示す。
論文 参考訳(メタデータ) (2024-05-17T12:03:24Z) - Worst-Case Convergence Time of ML Algorithms via Extreme Value Theory [8.540426791244533]
本稿では、極端な値の統計を利用して、機械学習アルゴリズムの最悪の収束時間を予測する。
タイミングはMLシステムの重要な非機能特性であり、最悪の収束時間を提供することは、MLとそのサービスの可用性を保証するために不可欠である。
論文 参考訳(メタデータ) (2024-04-10T17:05:12Z) - Metric Entropy-Free Sample Complexity Bounds for Sample Average Approximation in Convex Stochastic Programming [0.6906005491572401]
本稿では,凸問題や強凸プログラミング(SP)問題におけるサンプル平均近似(SAA)について検討する。
SAAのサンプルの複雑さは、計量エントロピーの定量化から完全に解放されることを示している。
論文 参考訳(メタデータ) (2024-01-01T04:35:53Z) - Can semi-supervised learning use all the data effectively? A lower bound
perspective [58.71657561857055]
半教師付き学習アルゴリズムはラベル付きデータを利用して教師付き学習アルゴリズムのラベル付きサンプル複雑性を改善することができることを示す。
我々の研究は、SSLアルゴリズムのパフォーマンス向上を証明することは可能だが、定数の注意深く追跡する必要があることを示唆している。
論文 参考訳(メタデータ) (2023-11-30T13:48:50Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - Rethinking and Reweighting the Univariate Losses for Multi-Label
Ranking: Consistency and Generalization [44.73295800450414]
(部分)ランキング損失は、マルチラベル分類の一般的な評価尺度です。
既存の理論と実践の間にはギャップがある -- ペアワイズな損失は有望なパフォーマンスをもたらすが一貫性を欠く可能性がある。
論文 参考訳(メタデータ) (2021-05-10T09:23:27Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。