論文の概要: Weakly-supervised Text Classification Based on Keyword Graph
- arxiv url: http://arxiv.org/abs/2110.02591v1
- Date: Wed, 6 Oct 2021 08:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:29:06.311988
- Title: Weakly-supervised Text Classification Based on Keyword Graph
- Title(参考訳): キーワードグラフに基づく弱教師付きテキスト分類
- Authors: Lu Zhang, Jiandong Ding, Yi Xu, Yingyao Liu and Shuigeng Zhou
- Abstract要約: GNN によるキーワードグラフ上のキーワードキーワード相関を探索する ClassKG という新しいフレームワークを提案する。
フレームワークは反復的なプロセスであり、各イテレーションでまずキーワードグラフを構築し、擬似ラベルをアサインするタスクをキーワードサブグラフに変換する。
サブグラフアノテータによって生成された擬似ラベルを用いて、未ラベルのテキストを分類するためにテキスト分類器を訓練する。
- 参考スコア(独自算出の注目度): 30.57722085686241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised text classification has received much attention in recent
years for it can alleviate the heavy burden of annotating massive data. Among
them, keyword-driven methods are the mainstream where user-provided keywords
are exploited to generate pseudo-labels for unlabeled texts. However, existing
methods treat keywords independently, thus ignore the correlation among them,
which should be useful if properly exploited. In this paper, we propose a novel
framework called ClassKG to explore keyword-keyword correlation on keyword
graph by GNN. Our framework is an iterative process. In each iteration, we
first construct a keyword graph, so the task of assigning pseudo labels is
transformed to annotating keyword subgraphs. To improve the annotation quality,
we introduce a self-supervised task to pretrain a subgraph annotator, and then
finetune it. With the pseudo labels generated by the subgraph annotator, we
then train a text classifier to classify the unlabeled texts. Finally, we
re-extract keywords from the classified texts. Extensive experiments on both
long-text and short-text datasets show that our method substantially
outperforms the existing ones
- Abstract(参考訳): 近年,大量のデータに注釈を付けることの重荷を軽減するため,テキスト分類の弱さが注目されている。
中でもキーワード駆動の手法は、ユーザが提供するキーワードを利用してラベルなしテキストの擬似ラベルを生成する主流である。
しかし、既存のメソッドはキーワードを独立して扱うので、それらの相関を無視する。
本稿では,GNN によるキーワードグラフ上のキーワードキーワード相関を探索する ClassKG という新しいフレームワークを提案する。
私たちのフレームワークは反復的なプロセスです。
各イテレーションにおいて、まずキーワードグラフを構築し、擬似ラベルをアサインするタスクをキーワードサブグラフに変換する。
アノテーションの品質を向上させるために,サブグラフアノテータを事前学習し,それを微調整する自己教師付きタスクを導入する。
サブグラフアノテータによって生成された擬似ラベルを用いて、未ラベルのテキストを分類するためにテキスト分類器を訓練する。
最後に、分類されたテキストからキーワードを再抽出する。
長文と短文の両方のデータセットに対する大規模な実験は、我々の手法が既存のデータセットよりも大幅に優れていることを示している。
関連論文リスト
- Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - FastClass: A Time-Efficient Approach to Weakly-Supervised Text
Classification [14.918600168973564]
本稿では,効率的な弱教師付き分類手法であるFastClassを提案する。
センシティブテキスト表現を使用して、外部ラベルなしコーパスからクラス関連文書を検索する。
実験により,提案手法は,分類精度の観点からキーワード駆動モデルよりも優れており,訓練速度のオーダー・オブ・マグニチュードが高速であることが確認された。
論文 参考訳(メタデータ) (2022-12-11T13:43:22Z) - LIME: Weakly-Supervised Text Classification Without Seeds [1.2691047660244335]
弱教師付きテキスト分類では、ラベル名のみが監督の源として機能する。
弱教師付きテキスト分類のためのフレームワーク LIME を提案する。
弱教師付き分類とテキスト・エンターメントを組み合わせることで、両者の欠点を軽減できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T04:28:28Z) - GUDN A novel guide network for extreme multi-label text classification [12.975260278131078]
本稿では,学習前のモデルを微調整し,後で分類を指示する新しいガイドネットワーク(GUDN)を構築する。
また、テキストとラベル間の潜伏空間を効果的に探索するために、生のラベルセマンティクスを使用し、予測精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2022-01-10T07:33:36Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - TF-CR: Weighting Embeddings for Text Classification [6.531659195805749]
本稿では,単語埋め込みの計算において,高頻度のカテゴリー排他語を重み付け可能な新しい重み付け方式TF-CRを提案する。
16の分類データセットの実験はTF-CRの有効性を示し、既存の重み付け方式よりもパフォーマンススコアが向上した。
論文 参考訳(メタデータ) (2020-12-11T19:23:28Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。