論文の概要: A Debiased Nearest Neighbors Framework for Multi-Label Text Classification
- arxiv url: http://arxiv.org/abs/2408.03202v1
- Date: Tue, 6 Aug 2024 14:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 13:58:07.392493
- Title: A Debiased Nearest Neighbors Framework for Multi-Label Text Classification
- Title(参考訳): マルチラベルテキスト分類のための難易度近傍近傍フレームワーク
- Authors: Zifeng Cheng, Zhiwei Jiang, Yafeng Yin, Zhaoling Chen, Cong Wang, Shiping Ge, Qiguo Huang, Qing Gu,
- Abstract要約: マルチラベルテキスト分類(MLTC)のためのDebiased Nearest Neighbors(DENN)フレームワークについて紹介する。
組込みアライメントバイアスに対処するために,ラベル共起における近傍の一貫性を向上する,非バイアス付きコントラスト学習戦略を提案する。
信頼度推定バイアスには,$k$NNの予測と帰納的二分分類の適応的組み合わせを改善し,偏りのある信頼度推定戦略を提案する。
- 参考スコア(独自算出の注目度): 13.30576550077694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Label Text Classification (MLTC) is a practical yet challenging task that involves assigning multiple non-exclusive labels to each document. Previous studies primarily focus on capturing label correlations to assist label prediction by introducing special labeling schemes, designing specific model structures, or adding auxiliary tasks. Recently, the $k$ Nearest Neighbor ($k$NN) framework has shown promise by retrieving labeled samples as references to mine label co-occurrence information in the embedding space. However, two critical biases, namely embedding alignment bias and confidence estimation bias, are often overlooked, adversely affecting prediction performance. In this paper, we introduce a DEbiased Nearest Neighbors (DENN) framework for MLTC, specifically designed to mitigate these biases. To address embedding alignment bias, we propose a debiased contrastive learning strategy, enhancing neighbor consistency on label co-occurrence. For confidence estimation bias, we present a debiased confidence estimation strategy, improving the adaptive combination of predictions from $k$NN and inductive binary classifications. Extensive experiments conducted on four public benchmark datasets (i.e., AAPD, RCV1-V2, Amazon-531, and EUR-LEX57K) showcase the effectiveness of our proposed method. Besides, our method does not introduce any extra parameters.
- Abstract(参考訳): MLTC(Multi-Label Text Classification)は、文書ごとに複数の非排他的ラベルを割り当てる作業である。
これまでの研究は主にラベルの相関を捉え、ラベルの予測を支援するために特別なラベル付け手法を導入したり、特定のモデル構造を設計したり、補助的なタスクを追加したりしていた。
最近、$k$Nearest Neighbor(k$NN)フレームワークは、埋め込みスペースにおけるマイニングラベルの共起情報を参照してラベル付きサンプルを取得することで、約束を示している。
しかし、2つの重要なバイアス、すなわち埋め込みアライメントバイアスと信頼推定バイアスは、しばしば見過ごされ、予測性能に悪影響を及ぼす。
本稿では、これらのバイアスを軽減するために特別に設計されたMLTCのためのDebiased Nearest Neighbors(DENN)フレームワークを紹介する。
組込みアライメントバイアスに対処するために,ラベル共起における近傍の一貫性を向上する,非バイアス付きコントラスト学習戦略を提案する。
信頼度推定バイアスには,$k$NNの予測と帰納的二分分類の適応的組み合わせを改善し,偏りのある信頼度推定戦略を提案する。
4つの公開ベンチマークデータセット(AAPD, RCV1-V2, Amazon-531, EUR-LEX57K)で実施された大規模な実験により,提案手法の有効性が示された。
また,本手法では余分なパラメータは導入しない。
関連論文リスト
- RankMatch: A Novel Approach to Semi-Supervised Label Distribution
Learning Leveraging Inter-label Correlations [52.549807652527306]
本稿では,SSLDL (Semi-Supervised Label Distribution Learning) の革新的なアプローチである RankMatch を紹介する。
RankMatchは、ラベルのない大量のデータとともに、少数のラベル付き例を効果的に活用する。
我々はRandMatchに縛られる理論的な一般化を確立し、広範な実験を通じて既存のSSLDL法に対する性能上の優位性を実証した。
論文 参考訳(メタデータ) (2023-12-11T12:47:29Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias [5.698050337128548]
半教師付き学習において、自己学習はよく知られたアプローチである。モデルが自信を持ってラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。
ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過度に信頼されていることが知られている。
本稿では,線形分類器のアンサンブルの予測多様性に基づいて,$mathcalT$-similarityと呼ばれる新しい信頼度尺度を提案する。
論文 参考訳(メタデータ) (2023-10-23T11:30:06Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - Mitigating Label Biases for In-context Learning [28.209613730240633]
インコンテキスト学習(ICL)のための様々な設計設定は、タスクの理解を反映することなく、特定の予測に向けてモデルをバイアスすることができる。
本研究は,テキスト分類におけるICLの3種類のラベルバイアスに対して,バニララベルバイアス,コンテキストラベルバイアス,ドメインラベルバイアスの3種類のタイプを定義した。
論文 参考訳(メタデータ) (2023-05-28T15:37:39Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Lifting Weak Supervision To Structured Prediction [12.219011764895853]
弱監督 (WS) は、容易に得られるがノイズの多いラベル推定を集約することで擬似ラベルを生成する、豊富な手法のセットである。
擬ユークリッド埋め込みとテンソル分解に基づく弱監督手法を提案する。
ノイズのあるラベルを持つ構造化予測において頑健性を保証するとみなすこの結果のいくつかは、独立した関心事である可能性がある。
論文 参考訳(メタデータ) (2022-11-24T02:02:58Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Pointwise Binary Classification with Pairwise Confidence Comparisons [97.79518780631457]
ペアワイズ比較(Pcomp)分類を提案し、ラベルのないデータのペアしか持たない。
我々はPcomp分類をノイズラベル学習に結びつけて、進歩的UREを開発し、一貫性の正則化を課すことにより改善する。
論文 参考訳(メタデータ) (2020-10-05T09:23:58Z) - Knowing what you know: valid and validated confidence sets in multiclass
and multilabel prediction [0.8594140167290097]
マルチクラスおよびマルチラベル問題において、有効な信頼セットを構築するための共形予測手法を開発する。
量子レグレッションのアイデアを活用することで、常に正しいカバレッジを保証すると同時に、マルチクラスとマルチラベルの予測問題に対して条件付きカバレッジを提供する手法を構築する。
論文 参考訳(メタデータ) (2020-04-21T17:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。