論文の概要: Experiments on Generalizability of BERTopic on Multi-Domain Short Text
- arxiv url: http://arxiv.org/abs/2212.08459v1
- Date: Fri, 16 Dec 2022 13:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 15:22:09.737278
- Title: Experiments on Generalizability of BERTopic on Multi-Domain Short Text
- Title(参考訳): 多領域短文におけるbertopicの一般化に関する実験
- Authors: Muri\"el de Groot, Mohammad Aliannejadi, Marcel R. Haas
- Abstract要約: 我々は,最先端のBERTopicアルゴリズムが短時間のマルチドメインテキスト上でどのように機能するかを考察する。
BERTopicを用いたHDBSCANクラスタリングアルゴリズムの性能解析を行った。
HDBSCANをk-Meansに置き換えると、同様の性能を得るが、外れ値がない。
- 参考スコア(独自算出の注目度): 2.352645870795664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic modeling is widely used for analytically evaluating large collections
of textual data. One of the most popular topic techniques is Latent Dirichlet
Allocation (LDA), which is flexible and adaptive, but not optimal for e.g.
short texts from various domains. We explore how the state-of-the-art BERTopic
algorithm performs on short multi-domain text and find that it generalizes
better than LDA in terms of topic coherence and diversity. We further analyze
the performance of the HDBSCAN clustering algorithm utilized by BERTopic and
find that it classifies a majority of the documents as outliers. This crucial,
yet overseen problem excludes too many documents from further analysis. When we
replace HDBSCAN with k-Means, we achieve similar performance, but without
outliers.
- Abstract(参考訳): トピックモデリングは、大量のテキストデータを解析的に評価するために広く用いられている。
最も人気のあるトピックテクニックの1つは、柔軟性と適応性があるが、様々なドメインのショートテキストに最適ではない、ultnt dirichlet allocation(lda)である。
我々は,最先端のBERTopicアルゴリズムが短時間のマルチドメインテキスト上でどのように機能するかを考察し,トピックコヒーレンスと多様性の観点から,LDAよりも優れた一般化を見出した。
さらに,BERTopic が活用する HDBSCAN クラスタリングアルゴリズムの性能解析を行い,文書の大部分を外れ値として分類することを確認した。
この重要かつ監督的な問題は、多くの文書をさらなる分析から除外する。
HDBSCANをk-Meansに置き換えると、同様の性能を得るが、外れ値がない。
関連論文リスト
- Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。
重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。
我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文 参考訳(メタデータ) (2024-06-11T06:53:19Z) - FaiMA: Feature-aware In-context Learning for Multi-domain Aspect-based
Sentiment Analysis [1.606149016749251]
マルチドメインアスペクトベースの感情分析(ABSA)は、多様なドメインにわたってきめ細かい感情を捉えようとしている。
マルチドメインABSA(FaiMA)のための特徴認識型インコンテキスト学習フレームワークを提案する。
FaiMAはマルチドメインABSAタスクの適応学習を容易にする機能認識機構である。
論文 参考訳(メタデータ) (2024-03-02T02:00:51Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Using Set Covering to Generate Databases for Holistic Steganalysis [2.089615335919449]
我々は、CSM(Cover Source Mismatch)の起源を研究するために、処理パイプラインのグリッドを探索する。
集合被覆グリードアルゴリズムを用いて、集合内の代表とパイプライン間の最大の後悔を最小限に抑える代表パイプラインを選択する。
我々の分析は、多様性を育むためには、デノイング、シャープニング、ダウンサンプリングといったパラメータが重要であることも示しています。
論文 参考訳(メタデータ) (2022-11-07T10:53:02Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - A Simple Information-Based Approach to Unsupervised Domain-Adaptive
Aspect-Based Sentiment Analysis [58.124424775536326]
本稿では,相互情報に基づくシンプルだが効果的な手法を提案し,それらの用語を抽出する。
実験の結果,提案手法はクロスドメインABSAの最先端手法よりも4.32%高い性能を示した。
論文 参考訳(メタデータ) (2022-01-29T10:18:07Z) - Community-Detection via Hashtag-Graphs for Semi-Supervised NMF Topic
Models [0.0]
本稿では,ハッシュタググラフのトピック構造をトピックモデルに組み込む手法について概説する。
最近ストリーミングされたTwitterのデータにこのアプローチを適用することで、この手順がより直感的で人間的に解釈可能なトピックにつながることが分かるだろう。
論文 参考訳(メタデータ) (2021-11-17T12:52:16Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - MultiGBS: A multi-layer graph approach to biomedical summarization [6.11737116137921]
本稿では,文書を多層グラフとしてモデル化し,テキストの複数の特徴を同時に処理可能にするドメイン固有手法を提案する。
教師なしの手法では,MultiRankアルゴリズムと概念数に基づいて,多層グラフから文を選択する。
提案するMultiGBSアルゴリズムはUMLSを採用し,SemRepやMetaMap,OGERといったさまざまなツールを用いて概念と関係を抽出する。
論文 参考訳(メタデータ) (2020-08-27T04:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。