論文の概要: A Multivariate Bernoulli-Based Sampling Method for Multi-Label Data with Application to Meta-Research
- arxiv url: http://arxiv.org/abs/2512.08371v2
- Date: Wed, 10 Dec 2025 08:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.221769
- Title: A Multivariate Bernoulli-Based Sampling Method for Multi-Label Data with Application to Meta-Research
- Title(参考訳): マルチラベルデータの多変量ベルヌーイに基づくサンプリング法とメタ検索への応用
- Authors: Simon Chung, Colby J. Vorland, Donna L. Maney, Andrew W. Brown,
- Abstract要約: 本稿では,ラベル依存を考慮した新しいサンプリングアルゴリズムを提案する。
本手法を,64の生物医学的話題カテゴリーをラベル付けした研究論文のサンプルに適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Datasets may contain observations with multiple labels. If the labels are not mutually exclusive, and if the labels vary greatly in frequency, obtaining a sample that includes sufficient observations with scarcer labels to make inferences about those labels, and which deviates from the population frequencies in a known manner, creates challenges. In this paper, we consider a multivariate Bernoulli distribution as our underlying distribution of a multi-label problem. We present a novel sampling algorithm that takes label dependencies into account. It uses observed label frequencies to estimate multivariate Bernoulli distribution parameters and calculate weights for each label combination. This approach ensures the weighted sampling acquires target distribution characteristics while accounting for label dependencies. We applied this approach to a sample of research articles from Web of Science labeled with 64 biomedical topic categories. We aimed to preserve category frequency order, reduce frequency differences between most and least common categories, and account for category dependencies. This approach produced a more balanced sub-sample, enhancing the representation of minority categories.
- Abstract(参考訳): データセットは複数のラベルで観測される。
ラベルが相互排他的でなく、ラベルが周波数的に大きく異なる場合、それらのラベルについて推測するために不足ラベルとの十分な観測を含むサンプルを取得し、既知の方法で人口頻度から逸脱するサンプルを得る。
本稿では,多変量ベルヌーイ分布をマルチラベル問題の基本分布とみなす。
本稿では,ラベル依存を考慮した新しいサンプリングアルゴリズムを提案する。
観測されたラベル周波数を用いて、多変量ベルヌーイ分布パラメータを推定し、ラベルの組み合わせごとに重みを計算する。
このアプローチにより、重み付けサンプリングは、ラベル依存を考慮しつつ、ターゲット分布特性を取得する。
我々はこの手法を、64の生物医学的トピックカテゴリーをラベル付けしたWeb of Scienceの研究論文のサンプルに適用した。
我々は,カテゴリーの順序を保ち,最も一般的なカテゴリと最小のカテゴリの周波数差を減らし,カテゴリー依存を考慮した。
このアプローチはよりバランスの取れたサブサンプルを生み出し、マイノリティカテゴリーの表現を高めた。
関連論文リスト
- Label Distribution Learning with Biased Annotations by Learning Multi-Label Representation [120.97262070068224]
マルチラベル学習(MLL)は,実世界のデータ表現能力に注目されている。
ラベル分布学習(LDL)は正確なラベル分布の収集において課題に直面している。
論文 参考訳(メタデータ) (2025-02-03T09:04:03Z) - Toward Robustness in Multi-label Classification: A Data Augmentation
Strategy against Imbalance and Noise [31.917931364881625]
マルチラベル分類は、トレーニングデータにおける不均衡なラベルとノイズの多いラベルによる課題を提起する。
本稿では,これらの課題に対処する統合データ拡張手法である BalanceMix を提案する。
提案手法には,不均衡ラベルに対する2つのサンプルが組み込まれ,多様性の高いマイノリティ拡張インスタンスが生成される。
論文 参考訳(メタデータ) (2023-12-12T09:09:45Z) - Understanding Label Bias in Single Positive Multi-Label Learning [20.09309971112425]
画像ごとの正のラベルを1つだけ使い、効果的なマルチラベルを訓練することができる。
SPMLの標準ベンチマークは、従来のマルチラベル分類データセットに由来する。
本研究では,SPMLにおけるラベルバイアス研究のプロトコルを導入し,新たな実験結果を提供する。
論文 参考訳(メタデータ) (2023-05-24T21:41:08Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - Label distribution learning via label correlation grid [9.340734188957727]
ラベル関係の不確かさをモデル化するための textbfLabel textbfCorrelation textbfGrid (LCG) を提案する。
我々のネットワークはLCGを学習し、各インスタンスのラベル分布を正確に推定する。
論文 参考訳(メタデータ) (2022-10-15T03:58:15Z) - To Aggregate or Not? Learning with Separate Noisy Labels [28.14966756980763]
本稿では,個別のノイズラベルを単一のラベルに集約するか,個別に使用すべきかという問題に対処する。
実験的リスク最小化フレームワークを用いて,両手法の性能を理論的に解析する。
我々の定理は、ノイズレートが高い場合やラベル/アノテーションの数が少ない場合、ラベルの分離がラベルの集約よりも望ましいと結論付けている。
論文 参考訳(メタデータ) (2022-06-14T21:32:26Z) - Instance-Dependent Partial Label Learning [69.49681837908511]
部分ラベル学習は、典型的には弱教師付き学習問題である。
既存のほとんどのアプローチでは、トレーニングサンプルの間違ったラベルがランダムに候補ラベルとして選択されていると仮定している。
本稿では,各例が実数で構成された潜在ラベル分布と関連していると仮定する。
論文 参考訳(メタデータ) (2021-10-25T12:50:26Z) - Integrating Unsupervised Clustering and Label-specific Oversampling to
Tackle Imbalanced Multi-label Data [13.888344214818733]
クラスタリングは、マルチラベルデータセットの重要で局所的に接続された領域を見つけるために実行される。
クラスタ内の少数点のみが、オーバーサンプリングに使用される合成マイノリティ点を生成するために使用される。
12のマルチラベルデータセットと複数のマルチラベルアルゴリズムを用いた実験により,提案手法が良好に動作したことを示す。
論文 参考訳(メタデータ) (2021-09-25T19:00:00Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。