論文の概要: A Conditional Generative Matching Model for Multi-lingual Reply
Suggestion
- arxiv url: http://arxiv.org/abs/2109.07046v1
- Date: Wed, 15 Sep 2021 01:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 02:59:22.627782
- Title: A Conditional Generative Matching Model for Multi-lingual Reply
Suggestion
- Title(参考訳): 多言語応答提案のための条件付き生成マッチングモデル
- Authors: Budhaditya Deb, Guoqing Zheng, Milad Shokouhi, Ahmed Hassan Awadallah
- Abstract要約: 複数の言語に対応可能な多言語自動応答提案(RS)モデルの問題点について検討する。
本稿では,多言語RSから生じる課題に対処するために,変分オートエンコーダフレームワーク内で最適化された条件付き生成マッチングモデル(CGM)を提案する。
- 参考スコア(独自算出の注目度): 23.750966630981623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of multilingual automated reply suggestions (RS) model
serving many languages simultaneously. Multilingual models are often challenged
by model capacity and severe data distribution skew across languages. While
prior works largely focus on monolingual models, we propose Conditional
Generative Matching models (CGM), optimized within a Variational Autoencoder
framework to address challenges arising from multi-lingual RS. CGM does so with
expressive message conditional priors, mixture densities to enhance
multi-lingual data representation, latent alignment for language
discrimination, and effective variational optimization techniques for training
multi-lingual RS. The enhancements result in performance that exceed
competitive baselines in relevance (ROUGE score) by more than 10\% on average,
and 16\% for low resource languages. CGM also shows remarkable improvements in
diversity (80\%) illustrating its expressiveness in representation of
multi-lingual data.
- Abstract(参考訳): 複数の言語に対応可能な多言語自動応答提案(RS)モデルについて検討する。
多言語モデルは、しばしば、言語間のモデル容量と厳しいデータ分散によって挑戦される。
先行研究は主に単言語モデルに焦点をあてるが、多言語rsから発生する課題に対処するために、変分オートエンコーダフレームワーク内で最適化された条件付き生成マッチングモデル(cgm)を提案する。
CGMは、表現的なメッセージ条件前処理、多言語データ表現の強化のための混合密度、言語識別のための遅延アライメント、多言語RSのトレーニングのための効果的な変分最適化技術を用いる。
この拡張により、関連する競合ベースライン(ROUGEスコア)を平均10倍以上、低リソース言語では16倍以上のパフォーマンスが得られる。
CGMはまた、多言語データの表現における表現性を示す多様性(80 %)の顕著な改善を示している。
関連論文リスト
- Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval [5.446052898856584]
本稿では,モノリンガル,クロスリンガル,マルチリンガル設定におけるゼロショット検索性能を改善するためのハイブリッドバッチ学習手法を提案する。
このアプローチは、データセットサイズに基づいてサンプリングされたモノリンガルとクロスリンガルの問合せ対のバッチを混合したマルチリンガル言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-08-20T04:30:26Z) - ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - Breaking the Curse of Multilinguality with Cross-lingual Expert Language Models [110.10545153845051]
X-ELM(X-Langual Expert Language Models、X-ELM)は、X-ELMを異なる言語に専門化するプロセスである。
新しい専門家を反復的に追加し、破滅的な忘れをせずに新しい言語にX-ELMを適用する。
論文 参考訳(メタデータ) (2024-01-19T01:07:50Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - MultiTACRED: A Multilingual Version of the TAC Relation Extraction
Dataset [6.7839993945546215]
そこで本研究では,9つの言語群から12種類の言語を対象とするMultiTACREDデータセットについて紹介する。
翻訳とアノテーションのプロジェクションの品質を分析し、エラーカテゴリを特定し、訓練済みの単言語および多言語言語モデルの微調整を実験的に評価する。
対象言語の多くにおいて、モノリンガルREモデルの性能は英語オリジナルに匹敵するものであり、英語とターゲット言語データの組み合わせで訓練された多言語モデルは、モノリンガルモデルよりも優れている。
論文 参考訳(メタデータ) (2023-05-08T09:48:21Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。