論文の概要: TMT: A Simple Way to Translate Topic Models Using Dictionaries
- arxiv url: http://arxiv.org/abs/2509.00822v1
- Date: Sun, 31 Aug 2025 12:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.413771
- Title: TMT: A Simple Way to Translate Topic Models Using Dictionaries
- Title(参考訳): TMT:辞書を使ってトピックモデルを翻訳する簡単な方法
- Authors: Felix Engl, Andreas Henrich,
- Abstract要約: トピックモデル変換(TMT)は,トピックモデルをある言語から別の言語に転送する,新しく,堅牢で透明な手法である。
TMTは、言語間のトピックモデルの再利用を可能にし、特にターゲット言語の大きなコーパスが利用できない、あるいは手動翻訳が不可能なシナリオに適している。
定量的および定性的手法の両方を用いてTMTを広範囲に評価し、意味的一貫性と一貫性のあるトピック翻訳を生成することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The training of topic models for a multilingual environment is a challenging task, requiring the use of sophisticated algorithms, topic-aligned corpora, and manual evaluation. These difficulties are further exacerbated when the developer lacks knowledge of the target language or is working in an environment with limited data, where only small or unusable multilingual corpora are available. Considering these challenges, we introduce Topic Model Translation (TMT), a novel, robust and transparent technique designed to transfer topic models (e.g., Latent Dirichlet Allocation (LDA) based topic models) from one language to another, without the need for metadata, embeddings, or aligned corpora. TMT enables the reuse of topic models across languages, making it especially suitable for scenarios where large corpora in the target language are unavailable or manual translation is infeasible. Furthermore, we evaluate TMT extensively using both quantitative and qualitative methods, demonstrating that it produces semantically coherent and consistent topic translations.
- Abstract(参考訳): 多言語環境のためのトピックモデルのトレーニングは難しい課題であり、洗練されたアルゴリズム、トピック対応コーパス、手作業による評価を必要とする。
これらの困難は、開発者がターゲット言語に関する知識を欠いたり、あるいは小さなまたは使用不能な多言語コーパスしか利用できない限られたデータ環境で作業している場合にさらに悪化する。
これらの課題を考慮すると、メタデータ、埋め込み、コーパスを必要とせず、トピックモデル(例えば、潜在ディリクレ割当(LDA)ベースのトピックモデル)をある言語から別の言語に転送するために設計された、新しく、堅牢で透明な技術であるトピックモデル翻訳(TMT)を導入する。
TMTは、言語間のトピックモデルの再利用を可能にし、特にターゲット言語の大きなコーパスが利用できない、あるいは手動翻訳が不可能なシナリオに適している。
さらに, 定量的および定性的手法の両方を用いてTMTを広範囲に評価し, セマンティック・コヒーレントで一貫したトピック翻訳を生成することを示した。
関連論文リスト
- Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation [33.08089616645845]
大言語モデル(LLM)は機械翻訳(MT)のランドスケープを再構築した
我々は,数発のプロンプト,言語間移動,パラメータ効率の微調整などの手法を解析する。
幻覚、評価の不整合、遺伝バイアスなど、永続的な課題について議論する。
論文 参考訳(メタデータ) (2025-04-02T17:26:40Z) - Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling [0.9095496510579351]
広範テキストコーパス内の話題を明らかにする代替手段として,大規模言語モデル (LLM) の未解決の可能性について検討する。
本研究は, 適切なプロンプトを持つLCMが, トピックのタイトルを生成でき, トピックを洗練, マージするためのガイドラインに固執する上で, 有効な代替手段として目立たせることを示唆している。
論文 参考訳(メタデータ) (2024-03-24T17:39:51Z) - TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages [92.86083489187403]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。