論文の概要: Representation Learning for Short Text Clustering
- arxiv url: http://arxiv.org/abs/2109.09894v1
- Date: Tue, 21 Sep 2021 00:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:25:23.885068
- Title: Representation Learning for Short Text Clustering
- Title(参考訳): 短文クラスタリングのための表現学習
- Authors: Hui Yin, Xiangyu Song, Shuiqiao Yang, Guangyan Huang and Jianxin Li
- Abstract要約: 本稿では,クラスタリング性能を最適化するために,教師なしオートエンコーダ(AE)フレームワークを利用する2つの手法を提案する。
最初の方法であるStructure Text Network Graph Autoencoder (STN-GAE)では、テキストネットワークを構築してコーパス間の構造テキスト情報を利用して、グラフ畳み込みネットワークをエンコーダとして採用する。
ソフトクラスタ割り当てオートエンコーダ(SCA-AE)では、学習したテキスト表現をよりクラスタ化しやすいものにするために、オートエンコーダの潜在空間に追加のソフトクラスタ割り当て制約を適用する。
- 参考スコア(独自算出の注目度): 9.896550179440544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective representation learning is critical for short text clustering due
to the sparse, high-dimensional and noise attributes of short text corpus.
Existing pre-trained models (e.g., Word2vec and BERT) have greatly improved the
expressiveness for short text representations with more condensed,
low-dimensional and continuous features compared to the traditional
Bag-of-Words (BoW) model. However, these models are trained for general
purposes and thus are suboptimal for the short text clustering task. In this
paper, we propose two methods to exploit the unsupervised autoencoder (AE)
framework to further tune the short text representations based on these
pre-trained text models for optimal clustering performance. In our first method
Structural Text Network Graph Autoencoder (STN-GAE), we exploit the structural
text information among the corpus by constructing a text network, and then
adopt graph convolutional network as encoder to fuse the structural features
with the pre-trained text features for text representation learning. In our
second method Soft Cluster Assignment Autoencoder (SCA-AE), we adopt an extra
soft cluster assignment constraint on the latent space of autoencoder to
encourage the learned text representations to be more clustering-friendly. We
tested two methods on seven popular short text datasets, and the experimental
results show that when only using the pre-trained model for short text
clustering, BERT performs better than BoW and Word2vec. However, as long as we
further tune the pre-trained representations, the proposed method like SCA-AE
can greatly increase the clustering performance, and the accuracy improvement
compared to use BERT alone could reach as much as 14\%.
- Abstract(参考訳): ショートテキストコーパスのスパース,高次元,ノイズ特性のため,効率的な表現学習は短いテキストクラスタリングに不可欠である。
既存の事前学習モデル(word2vecやbertなど)は、従来のbag-of-words(bow)モデルに比べて、より凝縮され低次元で連続的な特徴を持つ短いテキスト表現の表現性を大幅に改善した。
しかし、これらのモデルは一般的な目的のために訓練されており、短文クラスタリングタスクに最適である。
本稿では,教師なしオートエンコーダ(ae)フレームワークを利用して,これらの学習済みテキストモデルに基づく短いテキスト表現を最適化し,最適なクラスタリング性能を実現する2つの手法を提案する。
最初の方法であるStructure Text Network Graph Autoencoder (STN-GAE)では,テキストネットワークを構築することによってコーパス間の構造的テキスト情報を利用して,グラフ畳み込みネットワークをエンコーダとして採用し,テキスト表現学習のための事前訓練されたテキスト機能と融合させる。
ソフトクラスタ割り当てオートエンコーダ(SCA-AE)では、学習したテキスト表現をよりクラスタ化しやすいものにするために、オートエンコーダの潜在空間に追加のソフトクラスタ割り当て制約を適用する。
実験の結果,短文クラスタリングに事前学習したモデルのみを用いる場合,BERTはBoWやWord2vecよりも優れた性能を示すことがわかった。
しかし、事前学習した表現をさらにチューニングする限り、sca-aeのような提案手法はクラスタリング性能を大幅に向上させ、bert単独での精度向上は最大14\%に達する可能性がある。
関連論文リスト
- Text Clustering with LLM Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。
大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。
LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T11:08:48Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - JOIST: A Joint Speech and Text Streaming Model For ASR [63.15848310748753]
JOISTは、音声テキストのペア入力とテキストのみのアンペア入力の両方で、ストリーミング、カスケード、エンコーダエンドツーエンド(E2E)モデルを訓練するアルゴリズムである。
JOISTの最良のテキスト表現は、テキストで訓練されていないモデルと比較して、様々な検索およびレアワードテストセットのWERを4-14%改善することがわかった。
論文 参考訳(メタデータ) (2022-10-13T20:59:22Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文 参考訳(メタデータ) (2020-12-28T06:48:04Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。