論文の概要: Ranking-based Fusion Algorithms for Extreme Multi-label Text Classification (XMTC)
- arxiv url: http://arxiv.org/abs/2507.03761v1
- Date: Fri, 04 Jul 2025 18:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.867175
- Title: Ranking-based Fusion Algorithms for Extreme Multi-label Text Classification (XMTC)
- Title(参考訳): XMTC (Extreme Multi-label Text Classification) のランク付けに基づく融合アルゴリズム
- Authors: Celso França, Gestefane Rabbi, Thiago Salles, Washington Cunha, Leonardo Rocha, Marcos André Gonçalves,
- Abstract要約: XMTC(Extreme Multi-label Text Classification)においてラベルの長期分布は重要な課題である
ラベルは、頻繁で高被覆のtextbfhead ラベルと頻繁で低被覆の textbftail ラベルに大別できる。
Sparse retrieverは高次元のbag-of-words表現に基づいて関連度スコアを計算し、Sparse retrieverは密接なテキストとラベルを共有埋め込み空間内に埋め込むANNアルゴリズムを利用する。
ランクベース融合アルゴリズムは、スパースレトリバーの正確なマッチング能力とセマンティックリッチネスを組み合わせ、これらの差を利用した。
- 参考スコア(独自算出の注目度): 7.817991268974576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the context of Extreme Multi-label Text Classification (XMTC), where labels are assigned to text instances from a large label space, the long-tail distribution of labels presents a significant challenge. Labels can be broadly categorized into frequent, high-coverage \textbf{head labels} and infrequent, low-coverage \textbf{tail labels}, complicating the task of balancing effectiveness across all labels. To address this, combining predictions from multiple retrieval methods, such as sparse retrievers (e.g., BM25) and dense retrievers (e.g., fine-tuned BERT), offers a promising solution. The fusion of \textit{sparse} and \textit{dense} retrievers is motivated by the complementary ranking characteristics of these methods. Sparse retrievers compute relevance scores based on high-dimensional, bag-of-words representations, while dense retrievers utilize approximate nearest neighbor (ANN) algorithms on dense text and label embeddings within a shared embedding space. Rank-based fusion algorithms leverage these differences by combining the precise matching capabilities of sparse retrievers with the semantic richness of dense retrievers, thereby producing a final ranking that improves the effectiveness across both head and tail labels.
- Abstract(参考訳): ラベルが大きなラベル空間からテキストインスタンスに割り当てられるExtreme Multi-label Text Classification (XMTC)の文脈では、ラベルの長いテール分布が大きな課題である。
ラベルは、頻繁でハイカバーな \textbf{head labels} と、頻繁で低カバーな \textbf{tail labels} に分類することができ、すべてのラベル間で効率のバランスをとる作業が複雑になる。
これを解決するために、スパースレトリバー(eg, BM25)や密集レトリバー(eg, fine-tuned BERT)といった複数の検索手法からの予測を組み合わせることで、有望なソリューションを提供する。
これらの手法の相補的なランク付け特性によって, \textit{sparse} と \textit{dense} レトリバーの融合が動機付けられる。
Sparse retrieverは高次元のbag-of-words表現に基づいて関連度スコアを計算し、Sparse retrieverは密接なテキストとラベルを共有埋め込み空間内に埋め込むANNアルゴリズムを利用する。
ランクベースの融合アルゴリズムは、スパースレトリバーの正確なマッチング能力と高密度レトリバーのセマンティックリッチ性を組み合わせることにより、頭と尾のラベル間の有効性を改善する最終的なランキングを生成する。
関連論文リスト
- LabelCoRank: Revolutionizing Long Tail Multi-Label Classification with Co-Occurrence Reranking [10.418399727644859]
長い尾の課題は、より頻度の低いラベルを正確に分類することの難しさを持続的に引き起こしている。
本稿では、ランキング原理に触発された新しいアプローチであるLabelCoRankを紹介する。
LabelCoRankは、マルチラベルテキスト分類における長い尾の問題を効果的に緩和する。
論文 参考訳(メタデータ) (2025-03-11T01:52:39Z) - MatchXML: An Efficient Text-label Matching Framework for Extreme
Multi-label Text Classification [13.799733640048672]
eXtreme Multi-label text Classification (XMC) は、大規模なラベルセットから関連するラベルにテキストサンプルを割り当てる分類器の訓練を指す。
XMCのための効率的なテキストラベルマッチングフレームワークであるMatchXMLを提案する。
実験の結果、MatchXMLは6つのデータセットのうち5つで最先端の精度を実現している。
論文 参考訳(メタデータ) (2023-08-25T02:32:36Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Empowering Sentence Encoders with Prompting and Label Retrieval for
Zero-shot Text Classification [5.484132137132862]
我々のフレームワークであるRaLPは、文エンコーダでラベル候補をエンコードし、入力テキスト埋め込みと最もよく似たラベルを割り当てる。
RaLPは、様々なクローズドセット分類とマルチチョイスQAデータセットに基づいて、はるかに大きなベースラインよりも、競争力や強いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-20T16:18:03Z) - Pairwise Instance Relation Augmentation for Long-tailed Multi-label Text
Classification [38.66674700075432]
Pairwise Instance Relation Augmentation Network (PIRAN) を提案する。
PIRANはSOTA法を一貫して上回り、テールラベルの性能を劇的に向上させる。
論文 参考訳(メタデータ) (2022-11-19T12:45:54Z) - Long-tailed Extreme Multi-label Text Classification with Generated
Pseudo Label Descriptions [28.416742933744942]
本稿では,新しい手法を提案することで,テールラベル予測の課題に対処する。
これは、厳しいデータ不足条件下で情報ラベル記述を生成するための訓練されたbacker-of-words(BoW)分類器の有効性を組み合わせたものである。
提案手法はXMTCベンチマークデータセット上での最先端性能を実現し,これまでで最高の手法であるテールラベル予測を著しく上回っている。
論文 参考訳(メタデータ) (2022-04-02T23:42:32Z) - Rank-Consistency Deep Hashing for Scalable Multi-Label Image Search [90.30623718137244]
スケーラブルなマルチラベル画像検索のための新しいディープハッシュ法を提案する。
2つの空間の類似性順序を整列するために、新しい階数整合性目的を適用した。
強力な損失関数は、意味的類似性とハミング距離が一致しないサンプルをペナルティ化するように設計されている。
論文 参考訳(メタデータ) (2021-02-02T13:46:58Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。