論文の概要: InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual
Topic Modeling
- arxiv url: http://arxiv.org/abs/2304.03544v1
- Date: Fri, 7 Apr 2023 08:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 12:23:28.400879
- Title: InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual
Topic Modeling
- Title(参考訳): InfoCTM: 言語横断トピックモデリングにおける相互情報最大化の視点
- Authors: Xiaobao Wu, Xinshuai Dong, Thong Nguyen, Chaoqun Liu, Liangming Pan,
Anh Tuan Luu
- Abstract要約: 言語間トピックモデルは、一致した潜在トピックを明らかにすることによって、言語間テキスト分析において一般的である。
既存のほとんどの手法は、低被覆辞書によるさらなる分析と性能低下を妨げる反復的なトピックの生成に悩まされている。
本稿では,相互情報を用いた多言語トピックモデリング(InfoCTM)を提案する。
- 参考スコア(独自算出の注目度): 24.24023397721735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual topic models have been prevalent for cross-lingual text
analysis by revealing aligned latent topics. However, most existing methods
suffer from producing repetitive topics that hinder further analysis and
performance decline caused by low-coverage dictionaries. In this paper, we
propose the Cross-lingual Topic Modeling with Mutual Information (InfoCTM).
Instead of the direct alignment in previous work, we propose a topic alignment
with mutual information method. This works as a regularization to properly
align topics and prevent degenerate topic representations of words, which
mitigates the repetitive topic issue. To address the low-coverage dictionary
issue, we further propose a cross-lingual vocabulary linking method that finds
more linked cross-lingual words for topic alignment beyond the translations of
a given dictionary. Extensive experiments on English, Chinese, and Japanese
datasets demonstrate that our method outperforms state-of-the-art baselines,
producing more coherent, diverse, and well-aligned topics and showing better
transferability for cross-lingual classification tasks.
- Abstract(参考訳): 言語横断的話題モデルが言語横断的テキスト分析に広く普及している。
しかし、既存の手法の多くは、低被覆辞書によるさらなる分析と性能低下を妨げる反復的なトピックの生成に苦しむ。
本稿では,相互情報を用いた言語間トピックモデリング(InfoCTM)を提案する。
従来の作業の直接的なアライメントの代わりに,相互情報手法によるトピックアライメントを提案する。
これは、トピックを適切に整列させ、繰り返しトピック問題を緩和する単語の縮退したトピック表現を防止するための正規化として機能する。
また、低被覆辞書問題に対処するため、与えられた辞書の翻訳を超えたトピックアライメントのために、よりリンクされた言語間単語を見つける言語間語彙リンク手法を提案する。
英語,中国語,日本語のデータセットを広範囲に実験した結果,本手法は最先端のベースラインよりも優れており,よりコヒーレントで多彩なトピックを生成でき,言語間分類タスクの転送性も向上している。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement [7.6115889231452964]
トピックリファインメント(Topic Refinement)と呼ばれる新しいアプローチを導入する。
このアプローチは、トピックの初期のモデリングに直接関係せず、採掘後にトピックを改善することに重点を置いています。
素早いエンジニアリングを駆使して、所与のトピック内での話題外単語を排除し、文脈的に関係のある単語だけが、よりセマンティックに適合した単語で保存または置換されることを保証する。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - Decoding Multilingual Topic Dynamics and Trend Identification through ARIMA Time Series Analysis on Social Networks: A Novel Data Translation Framework Enhanced by LDA/HDP Models [0.08246494848934444]
われわれは、コロナウイルスパンデミックの間、チュニジアのソーシャルネットワーク内での対話や、スポーツや政治などの有名なテーマに焦点を当てている。
まず、これらのテーマに関連するコメントの多言語コーパスを集約することから始めます。
次に、言語的差異に対処するために、ノー・イングリッシュ・トゥ・イングリッシュ・マシン翻訳手法を導入する。
論文 参考訳(メタデータ) (2024-03-18T00:01:10Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - Explainable and Discourse Topic-aware Neural Language Understanding [22.443597046878086]
トピックモデルと言語モデルの結婚は、文章以外の文書レベルのコンテキストのより広いソースに言語理解を公開する。
既存のアプローチでは、潜在する文書のトピックの比率を取り入れ、文書の文の話題の言説を無視する。
本稿では,潜時と説明可能なトピックと,文レベルでの話題会話を併用したニューラルコンポジット言語モデルを提案する。
論文 参考訳(メタデータ) (2020-06-18T15:53:58Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。