論文の概要: Cross-lingual Contextualized Topic Models with Zero-shot Learning
- arxiv url: http://arxiv.org/abs/2004.07737v2
- Date: Thu, 4 Feb 2021 16:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 21:38:43.769414
- Title: Cross-lingual Contextualized Topic Models with Zero-shot Learning
- Title(参考訳): ゼロショット学習を用いた言語横断型話題モデル
- Authors: Federico Bianchi, Silvia Terragni, Dirk Hovy, Debora Nozza, and
Elisabetta Fersini
- Abstract要約: 本稿では,ゼロショット言語間トピックモデルを提案する。
1つの言語でトピックを学習し、異なる言語で見えないドキュメントを予測します。
異なる言語で同じ文書のトピック予測の質を評価する。
- 参考スコア(独自算出の注目度): 32.05840149368981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many data sets (e.g., reviews, forums, news, etc.) exist parallelly in
multiple languages. They all cover the same content, but the linguistic
differences make it impossible to use traditional, bag-of-word-based topic
models. Models have to be either single-language or suffer from a huge, but
extremely sparse vocabulary. Both issues can be addressed by transfer learning.
In this paper, we introduce a zero-shot cross-lingual topic model. Our model
learns topics on one language (here, English), and predicts them for unseen
documents in different languages (here, Italian, French, German, and
Portuguese). We evaluate the quality of the topic predictions for the same
document in different languages. Our results show that the transferred topics
are coherent and stable across languages, which suggests exciting future
research directions.
- Abstract(参考訳): 多くのデータセット(レビュー、フォーラム、ニュースなど)は複数の言語で並行して存在している。
それらはすべて同じコンテンツをカバーしているが、言語の違いにより、伝統的な単語ベースのトピックモデルを使うことは不可能である。
モデルは単一言語であるか、あるいは巨大な、しかし非常に希少な語彙に苦しむ必要がある。
どちらの問題も転校学習によって対処できる。
本稿では,ゼロショット言語間話題モデルを提案する。
我々のモデルは、ある言語(ヘレ、英語)のトピックを学び、異なる言語(ヘレ、イタリア語、フランス語、ドイツ語、ポルトガル語)で見えない文書を予測します。
我々は、異なる言語で同じ文書のトピック予測の品質を評価する。
その結果,転送された話題は言語間で一貫性と安定性があり,今後の研究の方向性が示唆された。
関連論文リスト
- The Less the Merrier? Investigating Language Representation in
Multilingual Models [8.632506864465501]
多言語モデルにおける言語表現について検討する。
我々は、コミュニティ中心のモデルが、低リソース言語で同じ家系の言語を区別する上で、より良い性能を発揮することを実験から観察した。
論文 参考訳(メタデータ) (2023-10-20T02:26:34Z) - Multilingual and Multimodal Topic Modelling with Pretrained Embeddings [3.0264210068684725]
M3L-Contrastは、M3L(multimodal multilingual)ニューラルトピックモデルである。
本モデルでは,テキストとイメージを共同でトレーニングし,事前学習した文書と画像の埋め込みを利用する。
論文 参考訳(メタデータ) (2022-11-15T11:15:50Z) - Universal and Independent: Multilingual Probing Framework for Exhaustive
Model Interpretation and Evaluation [0.04199844472131922]
多数の言語を簡単に探索できるGUI支援フレームワークを提案し,適用した。
mBERTモデルで明らかになった規則性のほとんどは、西欧語で典型的である。
私たちのフレームワークは,既存のプローブツールボックスやモデルカード,リーダボードと統合することができます。
論文 参考訳(メタデータ) (2022-10-24T13:41:17Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer [39.360667403003745]
ゼロショット・クロスランガル・トランスファーは実用的な解決策として浮上している。
人気のあるゼロショットベンチマークによって強化されたように、英語は転送のための主要なソース言語である。
ドイツ語やロシア語のような他の高リソース言語は、より効果的に転送されることがよくあります。
論文 参考訳(メタデータ) (2021-06-30T16:05:57Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。