論文の概要: A BERT-based Hierarchical Classification Model with Applications in Chinese Commodity Classification
- arxiv url: http://arxiv.org/abs/2508.15800v1
- Date: Wed, 13 Aug 2025 16:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.541848
- Title: A BERT-based Hierarchical Classification Model with Applications in Chinese Commodity Classification
- Title(参考訳): BERTに基づく階層型分類モデルと中国の商品分類への応用
- Authors: Kun Liu, Tuozhen Liu, Feifei Wang, Rui Pan,
- Abstract要約: 本稿では,JD eコマースプラットフォーム(www.JD.com)から収集した大規模階層的データセットを紹介する。
また,変換器からの双方向表現(BERT)に基づく新しい階層型テキスト分類手法を提案する。
我々のHFT-BERTモデルは、書籍などの長文を分類する際、例外的な性能を示す。
- 参考スコア(独自算出の注目度): 12.186379198760733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing e-commerce platforms heavily rely on manual annotation for product categorization, which is inefficient and inconsistent. These platforms often employ a hierarchical structure for categorizing products; however, few studies have leveraged this hierarchical information for classification. Furthermore, studies that consider hierarchical information fail to account for similarities and differences across various hierarchical categories. Herein, we introduce a large-scale hierarchical dataset collected from the JD e-commerce platform (www.JD.com), comprising 1,011,450 products with titles and a three-level category structure. By making this dataset openly accessible, we provide a valuable resource for researchers and practitioners to advance research and applications associated with product categorization. Moreover, we propose a novel hierarchical text classification approach based on the widely used Bidirectional Encoder Representations from Transformers (BERT), called Hierarchical Fine-tuning BERT (HFT-BERT). HFT-BERT leverages the remarkable text feature extraction capabilities of BERT, achieving prediction performance comparable to those of existing methods on short texts. Notably, our HFT-BERT model demonstrates exceptional performance in categorizing longer short texts, such as books.
- Abstract(参考訳): 既存のEコマースプラットフォームは、非効率で一貫性のない製品分類のための手動アノテーションに大きく依存している。
これらのプラットフォームは、製品を分類するために階層構造を用いることが多いが、この階層情報を分類に活用する研究はほとんどない。
さらに、階層的情報を考える研究は、様々な階層的カテゴリの類似性や相違を説明できない。
本稿では,JD eコマースプラットフォーム(www.JD.com)から収集した大規模階層的データセットについて紹介する。
このデータセットを公開してアクセス可能にすることで、研究者や実践者が製品分類に関する研究や応用を進めるための貴重なリソースを提供する。
さらに,HFT-BERT (hierarchical Fine-tuning BERT) と呼ばれる,多用される双方向エンコーダ表現(BERT)に基づく新しい階層型テキスト分類手法を提案する。
HFT-BERTはBERTの顕著なテキスト特徴抽出機能を活用し,既存のメソッドに匹敵する予測性能を実現する。
特に,HFT-BERTモデルでは,書籍などの長文の分類において,例外的な性能を示す。
関連論文リスト
- Hierarchical Multi-Label Generation with Probabilistic Level-Constraint [3.1427813443719868]
階層的極端多ラベル分類は、従来の多ラベル分類よりも困難である。
我々は,確率的レベル制約(PLC)を用いた生成フレームワークを用いて,特定の分類体系内で階層的なラベルを生成する。
提案手法は,HMGタスクにおいて新たなSOTA性能を実現するが,従来の研究結果よりもモデル出力の制約に優れた性能が得られる。
論文 参考訳(メタデータ) (2025-04-30T07:56:53Z) - Introducing Three New Benchmark Datasets for Hierarchical Text Classification [0.0]
研究出版分野において,HTCのベンチマークデータセットを新たに3つ導入する。
本稿では,データセットの信頼性とロバスト性を改善するために,それらの分類を組み合わせるアプローチを提案する。
クラスタリングに基づく分析によって作成した3つのデータセットを評価し,提案手法が高品質なデータセットを実現することを示す。
論文 参考訳(メタデータ) (2024-11-28T13:06:48Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。
文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文 参考訳(メタデータ) (2024-07-11T09:28:04Z) - Hierarchical Query Classification in E-commerce Search [38.67034103433015]
電子商取引プラットフォームは通常、製品情報と検索データを階層構造に保存し、構造化する。
ユーザ検索クエリを同様の階層構造に効果的に分類することは,eコマースプラットフォーム上でのユーザエクスペリエンスの向上,ニュースキュレーションや学術研究において最重要である。
階層的問合せ分類の本質的な複雑さは,(1)支配的カテゴリに傾倒する顕著なクラス不均衡,(2)正確な分類を妨げる検索クエリの本質的簡潔さとあいまいさの2つの課題によって複雑化されている。
論文 参考訳(メタデータ) (2024-03-09T21:55:55Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - HFT-ONLSTM: Hierarchical and Fine-Tuning Multi-label Text Classification [7.176984223240199]
階層型マルチラベルテキスト分類(HMTC)は,近縁なカテゴリの大規模集合よりも高精度である。
本稿では,HFT-ONLSTMと略される順序付きニューラルLSTMニューラルネットワークをベースとした階層的・微調整手法を提案し,より正確なレベル・バイ・レベルHMTCを提案する。
論文 参考訳(メタデータ) (2022-04-18T00:57:46Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Joint Embedding of Words and Category Labels for Hierarchical
Multi-label Text Classification [4.2750700546937335]
階層的テキスト分類(HTC)は広く注目されており、幅広い応用の見通しがある。
本稿では,HTC の階層的微調整順序ニューロン LSTM (HFT-ONLSTM) に基づくテキストと親カテゴリの結合埋め込みを提案する。
論文 参考訳(メタデータ) (2020-04-06T11:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。