論文の概要: Multilingual transformer and BERTopic for short text topic modeling: The
case of Serbian
- arxiv url: http://arxiv.org/abs/2402.03067v1
- Date: Mon, 5 Feb 2024 14:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:29:57.789272
- Title: Multilingual transformer and BERTopic for short text topic modeling: The
case of Serbian
- Title(参考訳): 短文トピックモデリングのための多言語変換器とBERTopic:セルビア語の場合
- Authors: Darija Medvecki, Bojana Ba\v{s}aragin, Adela Ljaji\'c, Nikola
Milo\v{s}evi\'c
- Abstract要約: 本稿では,最新のトピックモデリング技術であるBERTopicをモルフォロギ・カリーリッチ言語で書かれた短いテキストに適用した。
2段階のテキスト前処理(部分と完全)に3つの多言語埋め込みモデルを用いたBERTopicを適用し,その性能をセルビア語で部分的に前処理した短文で評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the results of the first application of BERTopic, a
state-of-the-art topic modeling technique, to short text written in a
morphologi-cally rich language. We applied BERTopic with three multilingual
embed-ding models on two levels of text preprocessing (partial and full) to
evalu-ate its performance on partially preprocessed short text in Serbian. We
also compared it to LDA and NMF on fully preprocessed text. The experiments
were conducted on a dataset of tweets expressing hesitancy toward COVID-19
vaccination. Our results show that with adequate parameter setting, BERTopic
can yield informative topics even when applied to partially pre-processed short
text. When the same parameters are applied in both prepro-cessing scenarios,
the performance drop on partially preprocessed text is minimal. Compared to LDA
and NMF, judging by the keywords, BERTopic offers more informative topics and
gives novel insights when the number of topics is not limited. The findings of
this paper can be significant for re-searchers working with other
morphologically rich low-resource languages and short text.
- Abstract(参考訳): 本稿では,最新のトピックモデリング手法であるbertopicを,morphologi-cally rich言語で書かれた短文に初めて適用した結果について述べる。
3つの多言語組込みモデルを用いて2段階のテキスト前処理(部分的および完全的)を行い,セルビア語の一部前処理された短文の性能を回避した。
また、完全に前処理されたテキスト上でLDAやNMFと比較した。
実験は、新型コロナウイルスの予防接種にためらいを示すツイートのデータセットで実施された。
その結果,BERTopicはパラメータ設定が適切であれば,部分的に前処理した短いテキストに適用しても情報的トピックを生成できることがわかった。
両方の前処理シナリオで同じパラメータが適用される場合、部分的に前処理されたテキストのパフォーマンス低下は最小限である。
LDAやNMFと比較して、BERTopicはより情報的なトピックを提供し、トピックの数が制限されない場合に新しい洞察を与える。
本論文は,他の形態学的にリッチな低リソース言語や短いテキストを扱う再調査者にとって重要である。
関連論文リスト
- Unveiling the Potential of BERTopic for Multilingual Fake News Analysis -- Use Case: Covid-19 [0.562479170374811]
BERTopicは文の埋め込み、次元の縮小、クラスタリング、トピック抽出で構成されている。
本稿では,BERTopicの技術応用を実際に分析することを目的とする。
また、実世界のデータに対するトピックモデリングの結果をユースケースとして分析することを目的とする。
論文 参考訳(メタデータ) (2024-07-11T11:47:43Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Prompting Large Language Model for Machine Translation: A Case Study [87.88120385000666]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。
本稿では,プロンプトテンプレートと実演例選択の要因について検討する。
本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文 参考訳(メタデータ) (2023-01-17T18:32:06Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - Shaking Syntactic Trees on the Sesame Street: Multilingual Probing with
Controllable Perturbations [2.041108289731398]
近年の研究では、テキスト摂動の概念を中心とした新しい実験分野が採用されている。
近年の研究では、シャッフル語順がトランスフォーマーベースの言語モデルの下流性能にほとんど影響しないことが明らかになっている。
論文 参考訳(メタデータ) (2021-09-28T20:15:29Z) - Fine-tuning GPT-3 for Russian Text Summarization [77.34726150561087]
本稿では,テキストを要約するruGPT3(ruGPT3)機能について紹介し,それに対応する人文要約を用いてロシア語ニュースのコーパスを微調整する。
得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、我々のソリューションが最先端のモデルの性能を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-08-07T19:01:40Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。