論文の概要: Unveiling the Potential of BERTopic for Multilingual Fake News Analysis -- Use Case: Covid-19
- arxiv url: http://arxiv.org/abs/2407.08417v1
- Date: Thu, 11 Jul 2024 11:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 17:39:27.553719
- Title: Unveiling the Potential of BERTopic for Multilingual Fake News Analysis -- Use Case: Covid-19
- Title(参考訳): 多言語フェイクニュース分析におけるBERTopicの可能性の解明-Covid-19を事例として
- Authors: Karla Schäfer, Jeong-Eun Choi, Inna Vogel, Martin Steinebach,
- Abstract要約: BERTopicは文の埋め込み、次元の縮小、クラスタリング、トピック抽出で構成されている。
本稿では,BERTopicの技術応用を実際に分析することを目的とする。
また、実世界のデータに対するトピックモデリングの結果をユースケースとして分析することを目的とする。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Topic modeling is frequently being used for analysing large text corpora such as news articles or social media data. BERTopic, consisting of sentence embedding, dimension reduction, clustering, and topic extraction, is the newest and currently the SOTA topic modeling method. However, current topic modeling methods have room for improvement because, as unsupervised methods, they require careful tuning and selection of hyperparameters, e.g., for dimension reduction and clustering. This paper aims to analyse the technical application of BERTopic in practice. For this purpose, it compares and selects different methods and hyperparameters for each stage of BERTopic through density based clustering validation and six different topic coherence measures. Moreover, it also aims to analyse the results of topic modeling on real world data as a use case. For this purpose, the German fake news dataset (GermanFakeNCovid) on Covid-19 was created by us and in order to experiment with topic modeling in a multilingual (English and German) setting combined with the FakeCovid dataset. With the final results, we were able to determine thematic similarities between the United States and Germany. Whereas, distinguishing the topics of fake news from India proved to be more challenging.
- Abstract(参考訳): トピックモデリングは、ニュース記事やソーシャルメディアデータなどの大きなテキストコーパスの分析に頻繁に用いられている。
BERTopicは、文の埋め込み、次元の縮小、クラスタリング、トピック抽出で構成され、最新のSOTAトピックモデリング手法である。
しかし、現在のトピックモデリング手法は、教師なしの手法として、次元の縮小とクラスタリングのために、ハイパーパラメータの注意深いチューニングと選択を必要とするため、改善の余地がある。
本稿では,BERTopicの技術応用を実際に分析することを目的とする。
この目的のために、密度に基づくクラスタリング検証と6つの異なるトピックコヒーレンス尺度を通じてBERTopicの各ステージの異なるメソッドとハイパーパラメータを比較し、選択する。
さらに,実世界のデータを対象としたトピックモデリングの結果をユースケースとして分析することを目的とする。
この目的のために、Covid-19上のドイツの偽ニュースデータセット(GermanFakeNCovid)は、FakeCovidデータセットと組み合わせた多言語(英語とドイツ語)設定でトピックモデリングを実験するために、私たちによって作成されました。
最終的な結果から,米国とドイツの間での主題的類似性を決定することができた。
しかし、偽ニュースとインドを区別することはより困難であることが判明した。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Decoding Multilingual Topic Dynamics and Trend Identification through ARIMA Time Series Analysis on Social Networks: A Novel Data Translation Framework Enhanced by LDA/HDP Models [0.08246494848934444]
われわれは、コロナウイルスパンデミックの間、チュニジアのソーシャルネットワーク内での対話や、スポーツや政治などの有名なテーマに焦点を当てている。
まず、これらのテーマに関連するコメントの多言語コーパスを集約することから始めます。
次に、言語的差異に対処するために、ノー・イングリッシュ・トゥ・イングリッシュ・マシン翻訳手法を導入する。
論文 参考訳(メタデータ) (2024-03-18T00:01:10Z) - Multilingual transformer and BERTopic for short text topic modeling: The
case of Serbian [0.0]
本稿では,最新のトピックモデリング技術であるBERTopicをモルフォロギ・カリーリッチ言語で書かれた短いテキストに適用した。
2段階のテキスト前処理(部分と完全)に3つの多言語埋め込みモデルを用いたBERTopicを適用し,その性能をセルビア語で部分的に前処理した短文で評価した。
論文 参考訳(メタデータ) (2024-02-05T14:59:29Z) - Exploring the Power of Topic Modeling Techniques in Analyzing Customer
Reviews: A Comparative Analysis [0.0]
大量のテキストデータをオンラインで分析するために、機械学習と自然言語処理アルゴリズムがデプロイされている。
本研究では,顧客レビューに特化して用いられる5つのトピックモデリング手法について検討・比較する。
以上の結果から,BERTopicはより意味のあるトピックを抽出し,良好な結果を得ることができた。
論文 参考訳(メタデータ) (2023-08-19T08:18:04Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Unsupervised Graph-based Topic Modeling from Video Transcriptions [5.210353244951637]
ニューラルワード埋め込みとグラフベースのクラスタリング手法を用いて,映像の書き起こしに関するトピック抽出器を開発した。
実生活マルチモーダルデータセット MuSe-CaR の実験結果から,本手法は一貫性と意味のあるトピックを抽出することを示した。
論文 参考訳(メタデータ) (2021-05-04T12:48:17Z) - Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection [7.29381091750894]
偽ニュース検出のためのトランスフォーマーに基づく言語モデルの微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
論文 参考訳(メタデータ) (2021-01-14T09:05:42Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。