論文の概要: Domain Lexical Knowledge-based Word Embedding Learning for Text Classification under Small Data
- arxiv url: http://arxiv.org/abs/2506.01621v1
- Date: Mon, 02 Jun 2025 12:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.747429
- Title: Domain Lexical Knowledge-based Word Embedding Learning for Text Classification under Small Data
- Title(参考訳): 小データによるテキスト分類のためのドメイン語彙知識に基づく単語埋め込み学習
- Authors: Zixiao Zhu, Kezhi Mao,
- Abstract要約: この問題の根本原因は、文脈に基づくBERTのキーワードの埋め込みは、分類のための差別的なテキスト表現を生成するのに十分な差別的でないことである。
この発見を動機として,ドメイン固有の語彙知識を用いて単語埋め込みを強化する手法を開発した。
知識に基づく埋め込み拡張モデルでは、BERTをクラス内の類似性とクラス間の差異を最大化する新しい空間に埋め込む。
- 参考スコア(独自算出の注目度): 9.531822246256928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models such as BERT have been proved to be powerful in many natural language processing tasks. But in some text classification applications such as emotion recognition and sentiment analysis, BERT may not lead to satisfactory performance. This often happens in applications where keywords play critical roles in the prediction of class labels. Our investigation found that the root cause of the problem is that the context-based BERT embedding of the keywords may not be discriminative enough to produce discriminative text representation for classification. Motivated by this finding, we develop a method to enhance word embeddings using domain-specific lexical knowledge. The knowledge-based embedding enhancement model projects the BERT embedding into a new space where within-class similarity and between-class difference are maximized. To implement the knowledge-based word embedding enhancement model, we also develop a knowledge acquisition algorithm for automatically collecting lexical knowledge from online open sources. Experiment results on three classification tasks, including sentiment analysis, emotion recognition and question answering, have shown the effectiveness of our proposed word embedding enhancing model. The codes and datasets are in https://github.com/MidiyaZhu/KVWEFFER.
- Abstract(参考訳): BERTのような事前訓練された言語モデルは、多くの自然言語処理タスクにおいて強力であることが証明されている。
しかし、感情認識や感情分析などのテキスト分類アプリケーションでは、BERTは満足できる性能にはならないかもしれない。
これはしばしば、クラスラベルの予測においてキーワードが重要な役割を果たすアプリケーションで発生する。
この問題の根本原因は、文脈に基づくBERTのキーワードの埋め込みが、分類のための識別的テキスト表現を生成するのに十分な差別的でないことにある。
この発見を動機として,ドメイン固有の語彙知識を用いて単語埋め込みを強化する手法を開発した。
知識に基づく埋め込み拡張モデルでは、BERTをクラス内の類似性とクラス間の差異を最大化する新しい空間に埋め込む。
知識に基づく単語埋め込み強化モデルを実装するために,オンラインオープンソースから語彙的知識を自動的に収集する知識獲得アルゴリズムを開発した。
感情分析,感情認識,質問応答を含む3つの分類課題の実験結果から,提案手法の有効性が示された。
コードとデータセットはhttps://github.com/MidiyaZhu/KVWEFFERにある。
関連論文リスト
- Label-template based Few-Shot Text Classification with Contrastive Learning [7.964862748983985]
本稿では,単純かつ効果的なテキスト分類フレームワークを提案する。
ラベルテンプレートは入力文に埋め込まれ、クラスラベルの潜在値を完全に活用する。
教師付きコントラスト学習を用いて、サポートサンプルとクエリサンプル間の相互作用情報をモデル化する。
論文 参考訳(メタデータ) (2024-12-13T12:51:50Z) - SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics [2.3742710594744105]
SciPromptは,低リソーステキスト分類タスクに対して,科学的トピック関連用語を自動的に検索するフレームワークである。
本手法は, ほとんど, ゼロショット設定下での科学的テキスト分類作業において, 最先端, 即時的な微調整法より優れる。
論文 参考訳(メタデータ) (2024-10-02T18:45:04Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge
Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。
マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T08:32:18Z) - Prompt-Learning for Short Text Classification [30.53216712864025]
短文では、極端に短い長さ、特徴の空間性、高いあいまいさは、分類タスクに大きな課題をもたらす。
本稿では,知識拡張に基づく素早い学習を生かした簡易な短文分類手法を提案する。
論文 参考訳(メタデータ) (2022-02-23T08:07:06Z) - Contextual Semantic Embeddings for Ontology Subsumption Prediction [37.61925808225345]
本稿では,Web Ontology (OWL) のクラスに BERTSubs というコンテキスト埋め込みの新たな予測手法を提案する。
これは、事前訓練された言語モデルBERTを利用してクラスの埋め込みを計算し、クラスコンテキストと論理的存在制約を組み込むためにカスタマイズされたテンプレートを提案する。
論文 参考訳(メタデータ) (2022-02-20T11:14:04Z) - Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt
Verbalizer for Text Classification [68.3291372168167]
我々は、外部知識を言語化に取り入れることに集中し、知識に富んだプロンプトチューニング(KPT)を形成する。
我々は,外部知識ベース(KB)を用いてラベル語空間を拡張し,拡張されたラベル語空間で予測する前に PLM 自体で拡張されたラベル語空間を洗練する。
ゼロと少数ショットのテキスト分類タスクの実験は、知識のあるプロンプトチューニングの有効性を示す。
論文 参考訳(メタデータ) (2021-08-04T13:00:16Z) - KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization
for Relation Extraction [111.74812895391672]
シナジスティック最適化(KnowPrompt)を用いた知識認識型Promptチューニング手法を提案する。
関係ラベルに含まれる潜在知識をインジェクトして,学習可能な仮想型語と解答語で構築する。
論文 参考訳(メタデータ) (2021-04-15T17:57:43Z) - On the Effects of Knowledge-Augmented Data in Word Embeddings [0.6749750044497732]
単語埋め込み学習のためのデータ拡張による言語知識注入のための新しい手法を提案する。
提案手法は,学習した埋め込みの本質的な特性を向上すると同時に,下流テキスト分類タスクにおける結果の大幅な変更は行わない。
論文 参考訳(メタデータ) (2020-10-05T02:14:13Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。