論文の概要: Research on Multilingual News Clustering Based on Cross-Language Word
Embeddings
- arxiv url: http://arxiv.org/abs/2305.18880v1
- Date: Tue, 30 May 2023 09:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:21:42.488970
- Title: Research on Multilingual News Clustering Based on Cross-Language Word
Embeddings
- Title(参考訳): 言語間単語埋め込みに基づく多言語ニュースクラスタリングに関する研究
- Authors: Lin Wu, Rui Li, Wong-Hing Lam
- Abstract要約: 中国語と英語の両方で文レベルのバイリンガルテキストを表現できる知識蒸留を用いて言語間モデルを訓練する。
我々は、ニュースコンテキストにシングルパスクラスタリングアルゴリズムを適用し、より適用できるようにする。
- 参考スコア(独自算出の注目度): 7.401514098389491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifying the same event reported by different countries is of significant
importance for public opinion control and intelligence gathering. Due to the
diverse types of news, relying solely on transla-tors would be costly and
inefficient, while depending solely on translation systems would incur
considerable performance overheads in invoking translation interfaces and
storing translated texts. To address this issue, we mainly focus on the
clustering problem of cross-lingual news. To be specific, we use a combination
of sentence vector representations of news headlines in a mixed semantic space
and the topic probability distributions of news content to represent a news
article. In the training of cross-lingual models, we employ knowledge
distillation techniques to fit two semantic spaces into a mixed semantic space.
We abandon traditional static clustering methods like K-Means and AGNES in
favor of the incremental clustering algorithm Single-Pass, which we further
modify to better suit cross-lingual news clustering scenarios. Our main
contributions are as follows: (1) We adopt the English standard BERT as the
teacher model and XLM-Roberta as the student model, training a cross-lingual
model through knowledge distillation that can represent sentence-level
bilingual texts in both Chinese and English. (2) We use the LDA topic model to
represent news as a combina-tion of cross-lingual vectors for headlines and
topic probability distributions for con-tent, introducing concepts such as
topic similarity to address the cross-lingual issue in news content
representation. (3) We adapt the Single-Pass clustering algorithm for the news
context to make it more applicable. Our optimizations of Single-Pass include
ad-justing the distance algorithm between samples and clusters, adding cluster
merging operations, and incorporating a news time parameter.
- Abstract(参考訳): 異なる国が報告した同じ出来事を分類することは、世論統制と情報収集において重要な意味を持つ。
様々なタイプのニュースのために、トランスラレータのみに依存するのはコストがかかり非効率であり、翻訳システムのみに依存すると、翻訳インターフェースの呼び出しや翻訳テキストの保存においてかなりのパフォーマンス上のオーバーヘッドが生じる。
この問題に対処するため、我々は主に言語間ニュースのクラスタリング問題に焦点をあてる。
具体的には、混合意味空間におけるニュース見出しの文ベクトル表現とニュースコンテンツの話題確率分布の組み合わせを用いてニュース記事を表現する。
言語間モデルの訓練では、2つの意味空間を混合意味空間に適合させるために知識蒸留技術を用いる。
我々はK-MeansやAGNESのような従来の静的クラスタリング手法を廃止し、インクリメンタルクラスタリングアルゴリズムSingle-Passを採用した。
本研究の主な貢献は,(1)英語標準BERTを教師モデルとし,XLM-Robertaを学生モデルとし,中国語と英語の文レベルのバイリンガルテキストを表現可能な知識蒸留による言語間モデルを訓練する。
2)LDAトピックモデルを用いて,ニュースをニュースコンテンツ表現におけるクロスランガル問題に対処するためのトピック類似性などの概念を導入し,ニュースを見出しのクロスランガルベクトルとコンテントのトピック確率分布の組合せとして表現する。
3) ニュースコンテキストに単一パスクラスタリングアルゴリズムを適用することで,その適用性を高める。
シングルパスの最適化には,サンプルとクラスタ間の距離アルゴリズムの調整,クラスタマージ操作の追加,ニュースタイムパラメータの組み込みなどが含まれる。
関連論文リスト
- mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual Topic Modeling [40.54497836775837]
言語間トピックモデルは、一致した潜在トピックを明らかにすることによって、言語間テキスト分析において一般的である。
既存のほとんどの手法は、低被覆辞書によるさらなる分析と性能低下を妨げる反復的なトピックの生成に悩まされている。
本稿では,相互情報を用いた多言語トピックモデリング(InfoCTM)を提案する。
論文 参考訳(メタデータ) (2023-04-07T08:49:43Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - Simplifying Multilingual News Clustering Through Projection From a
Shared Space [0.39560040546164016]
メディア監視のための多言語ニュース記事の整理とクラスタ化は,ニュース記事のリアルタイムな追跡に不可欠である。
このタスクのほとんどのアプローチは、高リソース言語(主に英語)に焦点を当てており、低リソース言語は無視されている。
言語固有の機能に依存することなく、よりシンプルな文書ストリームをクラスタリングできるオンラインシステムを提案する。
論文 参考訳(メタデータ) (2022-04-28T11:32:49Z) - Cross-language Sentence Selection via Data Augmentation and Rationale
Training [22.106577427237635]
雑音のある並列文データに対するデータ拡張と負のサンプリング技術を用いて、言語間埋め込みに基づくクエリ関連モデルの学習を行う。
その結果、同じ並列データでトレーニングされた複数の最先端機械翻訳+モノリンガル検索システムよりも、このアプローチが優れているか、あるいは優れていることが示された。
論文 参考訳(メタデータ) (2021-06-04T07:08:47Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。