論文の概要: Hierarchical Level-Wise News Article Clustering via Multilingual Matryoshka Embeddings
- arxiv url: http://arxiv.org/abs/2506.00277v1
- Date: Fri, 30 May 2025 22:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.174645
- Title: Hierarchical Level-Wise News Article Clustering via Multilingual Matryoshka Embeddings
- Title(参考訳): 多言語マトリオシュカ埋め込みによる階層的レベルワイズニュース記事クラスタリング
- Authors: Hans W. A. Hanley, Zakir Durumeric,
- Abstract要約: 本稿では,ニュース記事やソーシャルメディアデータをクラスタリングするための,新しい,スケーラブルで解釈可能な,階層的,多言語的なアプローチを提案する。
まず、さまざまなレベルの粒度でストーリーの類似性を決定するマルチリンガルなMatryoshka埋め込みを訓練する。
本研究では,Matryoshka埋め込みの階層性を活用し,ユニークなニュース,物語,テーマを識別する効率的な階層的クラスタリングアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 5.161088104035108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual large language model embeddings are increasingly utilized for topic modeling and clustering. However, current methods often scale poorly, rely on opaque similarity metrics, and struggle in multilingual settings. In this work, we present a novel, scalable, interpretable, hierarchical, and multilingual approach to clustering news articles and social media data. To do this, we first train multilingual Matryoshka embeddings that can determine story similarity at varying levels of granularity based on which subset of the dimensions of the embeddings is examined. This embedding model achieves state-of-the-art performance on the SemEval 2022 Task 8 test dataset (Pearson $\rho$ = 0.816). Once trained, we develop an efficient hierarchical clustering algorithm that leverages the hierarchical nature of Matryoshka embeddings to identify unique news stories, narratives, and themes. We conclude by illustrating how our approach can identify and cluster stories, narratives, and overarching themes within real-world news datasets.
- Abstract(参考訳): コンテキストの大きな言語モデルの埋め込みは、トピックモデリングやクラスタリングにますます利用されています。
しかしながら、現在のメソッドは、しばしばスケールが悪く、不透明な類似性メトリクスに依存し、多言語設定で苦労する。
本研究では,ニュース記事やソーシャルメディアデータをクラスタリングするための,新しい,スケーラブルで解釈可能な,階層的,多言語的なアプローチを提案する。
そこで,我々はまず,埋め込みの寸法のどの部分集合を調査するかに基づいて,様々なレベルの粒度で物語の類似性を判定できる多言語マトリリシカ埋め込みを訓練する。
この埋め込みモデルは、SemEval 2022 Task 8テストデータセット(Pearson $\rho$ = 0.816)で最先端のパフォーマンスを達成する。
学習後,Matryoshka埋め込みの階層性を活用し,ユニークなニュース,物語,テーマを識別する効率的な階層的クラスタリングアルゴリズムを開発した。
現実のニュースデータセットの中で、私たちのアプローチがストーリーや物語、および包括的なテーマを識別し、クラスタ化する方法について、私たちは結論付けています。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Research on Multilingual News Clustering Based on Cross-Language Word
Embeddings [7.401514098389491]
中国語と英語の両方で文レベルのバイリンガルテキストを表現できる知識蒸留を用いて言語間モデルを訓練する。
我々は、ニュースコンテキストにシングルパスクラスタリングアルゴリズムを適用し、より適用できるようにする。
論文 参考訳(メタデータ) (2023-05-30T09:24:55Z) - Topics in Contextualised Attention Embeddings [7.6650522284905565]
最近の研究で、言語モデルから単語レベルの文脈表現をクラスタ化することは、潜在ディリクレ割当から単語の潜在トピックで見つかる単語クラスタをエミュレートすることを示した。
重要な疑問は、潜在トピックをモデル化するように明示的に設計されていない言語モデルにおいて、そのような話題の単語クラスタが、クラスタリングを通じてどのように自動的に形成されるかである。
BERT と DistilBERT を用いて,このような話題クラスタをモデル化する上で,アテンションフレームワークが重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2023-01-11T07:26:19Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z) - Simplifying Multilingual News Clustering Through Projection From a
Shared Space [0.39560040546164016]
メディア監視のための多言語ニュース記事の整理とクラスタ化は,ニュース記事のリアルタイムな追跡に不可欠である。
このタスクのほとんどのアプローチは、高リソース言語(主に英語)に焦点を当てており、低リソース言語は無視されている。
言語固有の機能に依存することなく、よりシンプルな文書ストリームをクラスタリングできるオンラインシステムを提案する。
論文 参考訳(メタデータ) (2022-04-28T11:32:49Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Topic Modeling with Contextualized Word Representation Clusters [8.49454123392354]
トークンレベルの文脈化された単語表現のクラスタリングは、英語のテキストコレクションのトピックモデルと多くの類似点を共有する出力を生成する。
人気言語モデルの複数の異なる出力層から学習したトークンクラスタリングを評価する。
論文 参考訳(メタデータ) (2020-10-23T19:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。