論文の概要: Topic Modeling with Contextualized Word Representation Clusters
- arxiv url: http://arxiv.org/abs/2010.12626v1
- Date: Fri, 23 Oct 2020 19:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 22:52:23.640506
- Title: Topic Modeling with Contextualized Word Representation Clusters
- Title(参考訳): 文脈付き単語表現クラスタによるトピックモデリング
- Authors: Laure Thompson, David Mimno
- Abstract要約: トークンレベルの文脈化された単語表現のクラスタリングは、英語のテキストコレクションのトピックモデルと多くの類似点を共有する出力を生成する。
人気言語モデルの複数の異なる出力層から学習したトークンクラスタリングを評価する。
- 参考スコア(独自算出の注目度): 8.49454123392354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering token-level contextualized word representations produces output
that shares many similarities with topic models for English text collections.
Unlike clusterings of vocabulary-level word embeddings, the resulting models
more naturally capture polysemy and can be used as a way of organizing
documents. We evaluate token clusterings trained from several different output
layers of popular contextualized language models. We find that BERT and GPT-2
produce high quality clusterings, but RoBERTa does not. These cluster models
are simple, reliable, and can perform as well as, if not better than, LDA topic
models, maintaining high topic quality even when the number of topics is large
relative to the size of the local collection.
- Abstract(参考訳): クラスタリングトークンレベルのコンテキスト化ワード表現は、英語テキストコレクションのトピックモデルと多くの類似点を持つ出力を生成する。
語彙レベルの単語埋め込みのクラスタリングとは異なり、結果として得られるモデルはポリセミーをより自然に捉え、文書を整理する方法として使用できる。
人気言語モデルの複数の異なる出力層から学習したトークンクラスタリングを評価する。
BERT と GPT-2 は高品質なクラスタリングを実現するが,RoBERTa は実現しない。
これらのクラスタモデルはシンプルで信頼性が高く、ldaのトピックモデルよりも優れているとしても、ローカルコレクションのサイズに対してトピック数が大きい場合でも高いトピック品質を維持することができる。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - ClusterLLM: Large Language Models as a Guide for Text Clustering [45.835625439515]
本稿では,ChatGPTのような命令調整型大規模言語モデルからのフィードバックを活用する新しいテキストクラスタリングフレームワークであるClusterLLMを紹介する。
ClusterLLMはクラスタリングの品質を継続的に改善し、平均コストはデータセットあたり0.6ドルである。
論文 参考訳(メタデータ) (2023-05-24T08:24:25Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Topics in Contextualised Attention Embeddings [7.6650522284905565]
最近の研究で、言語モデルから単語レベルの文脈表現をクラスタ化することは、潜在ディリクレ割当から単語の潜在トピックで見つかる単語クラスタをエミュレートすることを示した。
重要な疑問は、潜在トピックをモデル化するように明示的に設計されていない言語モデルにおいて、そのような話題の単語クラスタが、クラスタリングを通じてどのように自動的に形成されるかである。
BERT と DistilBERT を用いて,このような話題クラスタをモデル化する上で,アテンションフレームワークが重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2023-01-11T07:26:19Z) - Adaptively Clustering Neighbor Elements for Image-Text Generation [78.82346492527425]
我々はtextbfACF と呼ばれるトランスフォーマーに基づく新しい画像テキスト生成モデルを提案する。
ACFは、視覚パッチをオブジェクト領域と言語単語に適応的にクラスタリングし、暗黙的にオブジェクト・フレーズのアライメントを学習する。
実験の結果,ほとんどのSOTAキャプションやVQAモデルよりも優れたACFの有効性が示された。
論文 参考訳(メタデータ) (2023-01-05T08:37:36Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - Simplifying Multilingual News Clustering Through Projection From a
Shared Space [0.39560040546164016]
メディア監視のための多言語ニュース記事の整理とクラスタ化は,ニュース記事のリアルタイムな追跡に不可欠である。
このタスクのほとんどのアプローチは、高リソース言語(主に英語)に焦点を当てており、低リソース言語は無視されている。
言語固有の機能に依存することなく、よりシンプルな文書ストリームをクラスタリングできるオンラインシステムを提案する。
論文 参考訳(メタデータ) (2022-04-28T11:32:49Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for
Fast and Good Topics too! [5.819224524813161]
事前学習した単語の埋め込みをクラスタリングし、重み付けされたクラスタリングと上位単語の再ランク付けのための文書情報を組み込んだ別の方法を提案する。
このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。
論文 参考訳(メタデータ) (2020-04-30T16:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。