論文の概要: Bayesian multilingual topic model for zero-shot cross-lingual topic
identification
- arxiv url: http://arxiv.org/abs/2007.01359v2
- Date: Wed, 2 Dec 2020 12:46:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:20:10.297584
- Title: Bayesian multilingual topic model for zero-shot cross-lingual topic
identification
- Title(参考訳): ゼロショット多言語トピック識別のためのベイズ多言語トピックモデル
- Authors: Santosh Kesiraju, Sangeet Sagar, Ond\v{r}ej Glembek, Luk\'a\v{s}
Burget, Suryakanth V Gangashetty
- Abstract要約: 本稿では,言語に依存しない文書埋め込み学習のためのベイズ多言語トピックモデルを提案する。
5言語EuroparlとReuters(MLDoc)コーパスの実験により、提案モデルは多言語単語の埋め込みやBiLSTM文エンコーダに基づくシステムより優れていることが示された。
- 参考スコア(独自算出の注目度): 5.160190487722263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a Bayesian multilingual topic model for learning
language-independent document embeddings. Our model learns to represent the
documents in the form of Gaussian distributions, thereby encoding the
uncertainty in its covariance. We propagate the learned uncertainties through
linear classifiers for zero-shot cross-lingual topic identification. Our
experiments on 5 language Europarl and Reuters (MLDoc) corpora show that the
proposed model outperforms multi-lingual word embedding and BiLSTM sentence
encoder based systems with significant margins in the majority of the transfer
directions. Moreover, our system trained under a single day on a single GPU
with much lower amounts of data performs competitively as compared to the
state-of-the-art universal BiLSTM sentence encoder trained on 93 languages. Our
experimental analysis shows that the amount of parallel data improves the
overall performance of embeddings. Nonetheless, exploiting the uncertainties is
always beneficial.
- Abstract(参考訳): 本稿では,言語に依存しない文書埋め込み学習のためのベイズ多言語トピックモデルを提案する。
本モデルはガウス分布の形で文書を表現することを学習し,共分散における不確かさを符号化する。
ゼロショット言語間話題識別のための線形分類器を用いて学習した不確かさを伝搬する。
5言語ユーロパールとロイター(mldoc)コーポラを用いた実験により,提案手法が多言語単語埋め込みとbilstm文エンコーダを上回っており,移動方向のほとんどが有意なマージンを示した。
さらに,本システムは,93言語でトレーニングされた最新のユニバーサルbilstm文エンコーダに比べて,データ量がはるかに少ない単一のgpu上で1日でトレーニングされる。
実験の結果,並列データ量が組込み全体の性能を向上させることがわかった。
それでも、不確実性の利用は常に有益である。
関連論文リスト
- Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Parameter-Efficient Cross-lingual Transfer of Vision and Language Models
via Translation-based Alignment [31.885608173448368]
CLIPのような事前訓練された視覚と言語モデルは、画像とテキストを英語のテキストに焦点を合わせることに顕著な成功を収めた。
異なる言語間のパフォーマンスの格差は、不均一なリソース可用性のために観測されている。
翻訳に基づくアライメント手法を用いて,多言語差を緩和するパラメータ効率のよい多言語間移動学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-02T14:09:02Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Learning Disentangled Semantic Representations for Zero-Shot
Cross-Lingual Transfer in Multilingual Machine Reading Comprehension [40.38719019711233]
マルチリンガル事前学習モデルは、機械読取理解(MRC)において、リッチリソース言語から低リソース言語への移行知識をゼロショットで得ることができる
本稿では,シメセマンティック・ディスタングルメント・モデル(SSDM)を用いた,多言語事前学習モデルで学習した表現の構文から意味論を解離させる新しい多言語MRCフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-03T05:26:42Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - MultiEURLEX -- A multi-lingual and multi-label legal document
classification dataset for zero-shot cross-lingual transfer [13.24356999779404]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。
データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。
そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) (2021-09-02T12:52:55Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。