論文の概要: Stratified Sampling for Extreme Multi-Label Data
- arxiv url: http://arxiv.org/abs/2103.03494v1
- Date: Fri, 5 Mar 2021 06:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 14:47:31.808946
- Title: Stratified Sampling for Extreme Multi-Label Data
- Title(参考訳): 高度マルチラベルデータのためのストラテファイドサンプリング
- Authors: Maximillian Merrillees and Lan Du
- Abstract要約: 本稿では,XMLデータセットの階層化分割を数百万のユニークなラベルで効率的に生成できる,新しい,シンプルなアルゴリズムを提案する。
また,既存のベンチマーク分割のラベル分布を調べ,モデル開発に不定型部分集合を用いた場合の問題点について検討する。
- 参考スコア(独自算出の注目度): 3.5809906147989428
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extreme multi-label classification (XML) is becoming increasingly relevant in
the era of big data. Yet, there is no method for effectively generating
stratified partitions of XML datasets. Instead, researchers typically rely on
provided test-train splits that, 1) aren't always representative of the entire
dataset, and 2) are missing many of the labels. This can lead to poor
generalization ability and unreliable performance estimates, as has been
established in the binary and multi-class settings. As such, this paper
presents a new and simple algorithm that can efficiently generate stratified
partitions of XML datasets with millions of unique labels. We also examine the
label distributions of prevailing benchmark splits, and investigate the issues
that arise from using unrepresentative subsets of data for model development.
The results highlight the difficulty of stratifying XML data, and demonstrate
the importance of using stratified partitions for training and evaluation.
- Abstract(参考訳): 極端なマルチラベル分類(XML)は、ビッグデータの時代においてますます関連性を増しています。
しかし、XMLデータセットの階層化されたパーティションを効果的に生成する方法はありません。
その代わり、研究者は通常、(1)データセット全体を代表するものではなく、2)ラベルの多くを欠いているテストトレイン分割に頼っている。
これはバイナリおよびマルチクラス設定で確立されたように、一般化能力の低下と信頼性の低いパフォーマンス推定につながる可能性がある。
そこで本論文では,何百万ものユニークなラベルを持つXMLデータセットの階層分割を効率的に生成するアルゴリズムを提案する。
また,既存のベンチマーク分割のラベル分布を調べ,モデル開発に不定型部分集合を用いた場合の問題点について検討する。
その結果、XMLデータの階層化の難しさが強調され、階層化パーティションをトレーニングと評価に使うことの重要性が示されました。
関連論文リスト
- FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Spatiotemporal Classification with limited labels using Constrained
Clustering for large datasets [22.117238467818623]
分離可能な表現は、より良い分類能力を持つ教師付きモデルにつながる可能性がある。
ラベルの少ない制約付き損失を使って、より優れた表現を学べる方法を示します。
我々は,ラベルの少ない手法を用いて,ラベルのないデータから新しいラベル付きサンプルを抽出し,より優れた分類につながる教師付き手法を拡張できることを示す。
論文 参考訳(メタデータ) (2022-10-14T05:05:22Z) - A Survey on Extreme Multi-label Learning [72.8751573611815]
マルチラベル学習は、近年、学術分野と産業分野の両方から大きな注目を集めている。
計算とメモリのオーバーヘッドのため、それらを非常に大きなラベル空間に直接適応することは不可能である。
eXtreme Multi-label Learning (XML)は重要なタスクとなり、多くの効果的なアプローチが提案されている。
論文 参考訳(メタデータ) (2022-10-08T08:31:34Z) - Learned Label Aggregation for Weak Supervision [8.819582879892762]
本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
論文 参考訳(メタデータ) (2022-07-27T14:36:35Z) - Learning from Multiple Unlabeled Datasets with Partial Risk
Regularization [80.54710259664698]
本稿では,クラスラベルを使わずに正確な分類器を学習することを目的とする。
まず、与えられたラベルのない集合から推定できる分類リスクの偏りのない推定器を導出する。
その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。
実験により,本手法は,複数の未ラベル集合から学習する最先端の手法を効果的に緩和し,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-07-04T16:22:44Z) - Learning Semantic Segmentation from Multiple Datasets with Label Shifts [101.24334184653355]
本論文では,ラベル空間が異なる複数のデータセットを対象としたモデルの自動学習手法であるUniSegを提案する。
具体的には,ラベルの相反と共起を考慮に入れた2つの損失を提案する。
論文 参考訳(メタデータ) (2022-02-28T18:55:19Z) - Learning from Partially Overlapping Labels: Image Segmentation under
Annotation Shift [68.6874404805223]
腹部臓器分節の文脈におけるラベルの重複から学ぶためのいくつかの方法を提案する。
半教師付きアプローチと適応的クロスエントロピー損失を組み合わせることで、不均一な注釈付きデータをうまく活用できることが判明した。
論文 参考訳(メタデータ) (2021-07-13T09:22:24Z) - Label Disentanglement in Partition-based Extreme Multilabel
Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。
提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2021-06-24T03:24:18Z) - LightXML: Transformer with Dynamic Negative Sampling for
High-Performance Extreme Multi-label Text Classification [27.80266694835677]
Extreme Multi-label text Classification (XMC) は、大きなラベルセットから最も関連性の高いラベルを見つけるタスクである。
エンドツーエンドのトレーニングと動的負ラベルサンプリングを採用したLightXMLを提案する。
実験では、LightXMLは5つの極端なマルチラベルデータセットで最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2021-01-09T07:04:18Z) - Multilabel Classification by Hierarchical Partitioning and
Data-dependent Grouping [33.48217977134427]
ラベルベクトルの空間性と階層構造を利用して、それらを低次元空間に埋め込む。
我々は、低ランク非負行列因子化に基づくグループ構成を用いる、新しいデータ依存型グループ化手法を提案する。
次に、大規模問題におけるラベル階層を利用して、大きなラベル空間を分割し、より小さなサブプロブレムを生成する階層的分割手法を提案する。
論文 参考訳(メタデータ) (2020-06-24T22:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。