論文の概要: GloCTM: Cross-Lingual Topic Modeling via a Global Context Space
- arxiv url: http://arxiv.org/abs/2601.11872v1
- Date: Sat, 17 Jan 2026 01:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.350727
- Title: GloCTM: Cross-Lingual Topic Modeling via a Global Context Space
- Title(参考訳): GloCTM:グローバルコンテキスト空間による言語間トピックモデリング
- Authors: Nguyen Tien Phat, Ngo Vu Minh, Linh Van Ngo, Nguyen Thi Ngoc Diep, Thien Huu Nguyen,
- Abstract要約: GloCTMは、モデルパイプライン全体にわたる統一的なセマンティック空間を通じて、言語間トピックアライメントを強制する、新しいフレームワークである。
出力レベルでは、複合語彙上で定義されたグローバルなトピックワード分布は、言語間でトピックの意味を構造的に同期させる。
- 参考スコア(独自算出の注目度): 28.89996742581612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual topic modeling seeks to uncover coherent and semantically aligned topics across languages - a task central to multilingual understanding. Yet most existing models learn topics in disjoint, language-specific spaces and rely on alignment mechanisms (e.g., bilingual dictionaries) that often fail to capture deep cross-lingual semantics, resulting in loosely connected topic spaces. Moreover, these approaches often overlook the rich semantic signals embedded in multilingual pretrained representations, further limiting their ability to capture fine-grained alignment. We introduce GloCTM (Global Context Space for Cross-Lingual Topic Model), a novel framework that enforces cross-lingual topic alignment through a unified semantic space spanning the entire model pipeline. GloCTM constructs enriched input representations by expanding bag-of-words with cross-lingual lexical neighborhoods, and infers topic proportions using both local and global encoders, with their latent representations aligned through internal regularization. At the output level, the global topic-word distribution, defined over the combined vocabulary, structurally synchronizes topic meanings across languages. To further ground topics in deep semantic space, GloCTM incorporates a Centered Kernel Alignment (CKA) loss that aligns the latent topic space with multilingual contextual embeddings. Experiments across multiple benchmarks demonstrate that GloCTM significantly improves topic coherence and cross-lingual alignment, outperforming strong baselines.
- Abstract(参考訳): 言語間のトピックモデリングは、言語間の一貫性とセマンティックに整合したトピックを明らかにすることを目指している。
しかし、既存のほとんどのモデルは、解離した言語固有の空間でトピックを学び、しばしば深い言語間セマンティクスを捉えるのに失敗するアライメント機構(例えば、バイリンガル辞書)に依存し、ゆるやかに連結されたトピック空間をもたらす。
さらに、これらのアプローチは多言語で事前訓練された表現に埋め込まれたリッチなセマンティックな信号を見落とし、さらに細かなアライメントを捉える能力を制限している。
本稿では,GloCTM(Global Context Space for Cross-Lingual Topic Model)を紹介する。
GloCTMは、単語のバグ・オブ・ワードを言語横断の語彙近傍に拡張してリッチな入力表現を構築し、局所エンコーダとグローバルエンコーダの両方を用いてトピック比を推論し、その潜在表現は内部正規化によって整列する。
出力レベルでは、複合語彙上で定義されたグローバルなトピックワード分布は、言語間でトピックの意味を構造的に同期させる。
ディープセマンティック空間におけるトピックのさらなる基盤となるため、GloCTMはCKA(Centered Kernel Alignment)損失を組み込んで、潜在トピック空間とマルチリンガルなコンテキスト埋め込みを整合させる。
複数のベンチマーク実験により、GloCTMはトピックコヒーレンスと言語間アライメントを大幅に改善し、強いベースラインを上回ります。
関連論文リスト
- Multilingual Text-to-Image Person Retrieval via Bidirectional Relation Reasoning and Aligning [81.43257201833154]
言語やモダリティ間のアライメントを学習するための双方向命令関係推論およびアライニングフレームワークBi-IRRAを提案する。
Bi-IRRA内において、双方向暗黙的関係推論モジュールは、マスクされた画像とテキストの双方向予測を可能にする。
提案手法は,すべての多言語TIPRデータセットに対して,新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2025-10-20T16:01:11Z) - XTRA: Cross-Lingual Topic Modeling with Topic and Representation Alignments [16.831512837465123]
言語間のトピックモデリングは、言語間の共有セマンティックテーマを明らかにすることを目的としている。
単語のバグ・オブ・ワード・モデリングと多言語埋め込みを統合化するフレームワークであるXTRAを提案する。
XTRAは、言語間で解釈可能な(一貫性があり多様な)トピックを学びます。
論文 参考訳(メタデータ) (2025-10-03T07:46:23Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - Exploring Alignment in Shared Cross-lingual Spaces [15.98134426166435]
多言語モデル内の潜在概念を明らかにするためにクラスタリングを採用しています。
本分析は,これらの概念のテキストアライメントとテキストオーバーラップを様々な言語で定量化することに焦点を当てている。
本研究は、3つの多言語モデル(textttmT5, texttmBERT, textttXLM-R)と3つの下流タスク(Machine Translation, Named Entity Recognition, Sentiment Analysis)を含む。
論文 参考訳(メタデータ) (2024-05-23T13:20:24Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual Topic Modeling [40.54497836775837]
言語間トピックモデルは、一致した潜在トピックを明らかにすることによって、言語間テキスト分析において一般的である。
既存のほとんどの手法は、低被覆辞書によるさらなる分析と性能低下を妨げる反復的なトピックの生成に悩まされている。
本稿では,相互情報を用いた多言語トピックモデリング(InfoCTM)を提案する。
論文 参考訳(メタデータ) (2023-04-07T08:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。