論文の概要: One Size Does Not Fit All: Exploring Variable Thresholds for Distance-Based Multi-Label Text Classification
- arxiv url: http://arxiv.org/abs/2510.11160v1
- Date: Mon, 13 Oct 2025 08:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.276408
- Title: One Size Does Not Fit All: Exploring Variable Thresholds for Distance-Based Multi-Label Text Classification
- Title(参考訳): One Size doesn’t All: Exploring Varable Thresholds for Distance-based Multi-Label Text Classification
- Authors: Jens Van Nooten, Andriy Kosar, Guy De Pauw, Walter Daelemans,
- Abstract要約: 距離に基づく教師なしテキスト分類では、ラベルとテキスト間の意味的類似性を使用してラベルの関連性を決定する。
類似度分布は、モデル、データセット、さらにはラベルセットの間で統計的に有意な差異を示す。
検証セットを用いてラベル固有の閾値を最適化する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.8165993946919816
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Distance-based unsupervised text classification is a method within text classification that leverages the semantic similarity between a label and a text to determine label relevance. This method provides numerous benefits, including fast inference and adaptability to expanding label sets, as opposed to zero-shot, few-shot, and fine-tuned neural networks that require re-training in such cases. In multi-label distance-based classification and information retrieval algorithms, thresholds are required to determine whether a text instance is "similar" to a label or query. Similarity between a text and label is determined in a dense embedding space, usually generated by state-of-the-art sentence encoders. Multi-label classification complicates matters, as a text instance can have multiple true labels, unlike in multi-class or binary classification, where each instance is assigned only one label. We expand upon previous literature on this underexplored topic by thoroughly examining and evaluating the ability of sentence encoders to perform distance-based classification. First, we perform an exploratory study to verify whether the semantic relationships between texts and labels vary across models, datasets, and label sets by conducting experiments on a diverse collection of realistic multi-label text classification (MLTC) datasets. We find that similarity distributions show statistically significant differences across models, datasets and even label sets. We propose a novel method for optimizing label-specific thresholds using a validation set. Our label-specific thresholding method achieves an average improvement of 46% over normalized 0.5 thresholding and outperforms uniform thresholding approaches from previous work by an average of 14%. Additionally, the method demonstrates strong performance even with limited labeled examples.
- Abstract(参考訳): 距離に基づく教師なしテキスト分類は、ラベルとテキスト間の意味的類似性を利用してラベルの関連性を決定するテキスト分類の手法である。
この方法は、ゼロショット、少数ショット、そしてそのようなケースで再トレーニングを必要とする微調整されたニューラルネットワークとは対照的に、高速な推論やラベルセットの拡張への適応性など、多くの利点を提供する。
マルチラベル距離に基づく分類と情報検索アルゴリズムでは、テキストインスタンスがラベルやクエリと「類似」かどうかを判断するためにしきい値が必要となる。
テキストとラベルの類似性は、通常最先端の文エンコーダによって生成される密接な埋め込み空間で決定される。
テキストインスタンスが複数の真のラベルを持つことができるため、マルチラベル分類は、各インスタンスが1つのラベルにのみ割り当てられるマルチクラス分類やバイナリ分類とは異なり、問題を複雑化する。
本研究は, 文エンコーダが距離に基づく分類を行う能力について, 徹底的に検証し, 評価することにより, これまでの文献を拡張したものである。
まず,テキストとラベル間の意味的関係がモデル,データセット,ラベルセットによって異なるかどうかを,MLTCデータセットの多種多様な収集実験により検証する。
類似度分布は、モデル、データセット、さらにはラベルセットの間で統計的に有意な差異を示す。
検証セットを用いてラベル固有の閾値を最適化する新しい手法を提案する。
ラベル別しきい値設定法では, 正規化0.5しきい値よりも平均46%向上し, 従来よりも平均14%向上した。
さらに,ラベル付き例が限定された場合でも,高い性能を示す。
関連論文リスト
- Label-template based Few-Shot Text Classification with Contrastive Learning [7.964862748983985]
本稿では,単純かつ効果的なテキスト分類フレームワークを提案する。
ラベルテンプレートは入力文に埋め込まれ、クラスラベルの潜在値を完全に活用する。
教師付きコントラスト学習を用いて、サポートサンプルとクエリサンプル間の相互作用情報をモデル化する。
論文 参考訳(メタデータ) (2024-12-13T12:51:50Z) - Determined Multi-Label Learning via Similarity-Based Prompt [12.428779617221366]
マルチラベル分類では、各トレーニングインスタンスは複数のクラスラベルに同時に関連付けられている。
この問題を軽減するために,textitDetermined Multi-Label Learning (DMLL) と呼ばれる新しいラベル設定を提案する。
論文 参考訳(メタデータ) (2024-03-25T07:08:01Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。