論文の概要: XTRA: Cross-Lingual Topic Modeling with Topic and Representation Alignments
- arxiv url: http://arxiv.org/abs/2510.02788v1
- Date: Fri, 03 Oct 2025 07:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.30482
- Title: XTRA: Cross-Lingual Topic Modeling with Topic and Representation Alignments
- Title(参考訳): XTRA: トピックと表現アライメントを用いた言語間トピックモデリング
- Authors: Tien Phat Nguyen, Vu Minh Ngo, Tung Nguyen, Linh Van Ngo, Duc Anh Nguyen, Sang Dinh, Trung Le,
- Abstract要約: 言語間のトピックモデリングは、言語間の共有セマンティックテーマを明らかにすることを目的としている。
単語のバグ・オブ・ワード・モデリングと多言語埋め込みを統合化するフレームワークであるXTRAを提案する。
XTRAは、言語間で解釈可能な(一貫性があり多様な)トピックを学びます。
- 参考スコア(独自算出の注目度): 16.831512837465123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual topic modeling aims to uncover shared semantic themes across languages. Several methods have been proposed to address this problem, leveraging both traditional and neural approaches. While previous methods have achieved some improvements in topic diversity, they often struggle to ensure high topic coherence and consistent alignment across languages. We propose XTRA (Cross-Lingual Topic Modeling with Topic and Representation Alignments), a novel framework that unifies Bag-of-Words modeling with multilingual embeddings. XTRA introduces two core components: (1) representation alignment, aligning document-topic distributions via contrastive learning in a shared semantic space; and (2) topic alignment, projecting topic-word distributions into the same space to enforce crosslingual consistency. This dual mechanism enables XTRA to learn topics that are interpretable (coherent and diverse) and well-aligned across languages. Experiments on multilingual corpora confirm that XTRA significantly outperforms strong baselines in topic coherence, diversity, and alignment quality. Code and reproducible scripts are available at https: //github.com/tienphat140205/XTRA.
- Abstract(参考訳): 言語間のトピックモデリングは、言語間の共有セマンティックテーマを明らかにすることを目的としている。
この問題に対処するためには、従来のアプローチとニューラルアプローチの両方を活用するいくつかの方法が提案されている。
従来の手法はトピックの多様性をある程度改善してきたが、高いトピックの一貫性と言語間の整合性の確保に苦慮することが多い。
XTRA(Cross-Lingual Topic Modeling with Topic and Representation Alignments)を提案する。
XTRAは,(1)表現のアライメント,共有意味空間におけるコントラスト学習による文書-トピックの分布のアライメント,(2)トピック-ワードの分布を同じ空間に投影し,言語間整合を強制する,という2つのコアコンポーネントを導入している。
この二重メカニズムにより、XTRAは解釈可能な(コヒーレントで多様な)トピックを学習し、言語間で整合性を持たせることができる。
多言語コーパスの実験により、XTRAはトピックコヒーレンス、多様性、アライメント品質において強いベースラインを著しく上回っていることが確認された。
コードと再現可能なスクリプトはhttps: //github.com/tienphat140205/XTRAで入手できる。
関連論文リスト
- HAMLET: Healthcare-focused Adaptive Multilingual Learning Embedding-based Topic Modeling [4.8342038441006805]
本稿では,言語間医療トピックモデリングのためのグラフ駆動アーキテクチャであるHAMLETを紹介する。
提案手法では,ニューラルエンハンスド・セマンティック・フュージョンを用いて,大規模言語モデルによって生成されたトピックの埋め込みを改良する。
実験は2つの医療データセットを用いて行われ、1つは英語、1つはフランス語で、そこから6つのデータセットが抽出された。
論文 参考訳(メタデータ) (2025-05-12T00:31:36Z) - Multilingual Topic Classification in X: Dataset and Analysis [19.725017254962918]
X-Topicは4つの異なる言語(英語、スペイン語、日本語、ギリシャ語)のコンテンツを含む多言語データセットである。
私たちのデータセットには、ソーシャルメディアコンテンツに適した幅広いトピックが含まれています。
論文 参考訳(メタデータ) (2024-10-04T01:37:26Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual Topic Modeling [40.54497836775837]
言語間トピックモデルは、一致した潜在トピックを明らかにすることによって、言語間テキスト分析において一般的である。
既存のほとんどの手法は、低被覆辞書によるさらなる分析と性能低下を妨げる反復的なトピックの生成に悩まされている。
本稿では,相互情報を用いた多言語トピックモデリング(InfoCTM)を提案する。
論文 参考訳(メタデータ) (2023-04-07T08:49:43Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。