論文の概要: News Without Borders: Domain Adaptation of Multilingual Sentence Embeddings for Cross-lingual News Recommendation
- arxiv url: http://arxiv.org/abs/2406.12634v1
- Date: Tue, 18 Jun 2024 14:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:48:22.580958
- Title: News Without Borders: Domain Adaptation of Multilingual Sentence Embeddings for Cross-lingual News Recommendation
- Title(参考訳): 境界のないニュース: 言語横断ニュースレコメンデーションのための多言語文埋め込みのドメイン適応
- Authors: Andreea Iana, Fabian David Schmidt, Goran Glavaš, Heiko Paulheim,
- Abstract要約: 多言語ニュース消費者は ニュースレコメンデーターシステムに 挑戦している
既存のニューラルニュースレコメンダは、ゼロショットの言語間転送でかなりのパフォーマンス損失を被る。
我々は、事前訓練された大規模多言語文エンコーダ(SE)からドメイン特化されたニュース適応文エンコーダ(NaSE)を提案する。
- 参考スコア(独自算出の注目度): 5.024813922014978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapidly growing numbers of multilingual news consumers pose an increasing challenge to news recommender systems in terms of providing customized recommendations. First, existing neural news recommenders, even when powered by multilingual language models (LMs), suffer substantial performance losses in zero-shot cross-lingual transfer (ZS-XLT). Second, the current paradigm of fine-tuning the backbone LM of a neural recommender on task-specific data is computationally expensive and infeasible in few-shot recommendation and cold-start setups, where data is scarce or completely unavailable. In this work, we propose a news-adapted sentence encoder (NaSE), domain-specialized from a pretrained massively multilingual sentence encoder (SE). To this end, we construct and leverage PolyNews and PolyNewsParallel, two multilingual news-specific corpora. With the news-adapted multilingual SE in place, we test the effectiveness of (i.e., question the need for) supervised fine-tuning for news recommendation, and propose a simple and strong baseline based on (i) frozen NaSE embeddings and (ii) late click-behavior fusion. We show that NaSE achieves state-of-the-art performance in ZS-XLT in true cold-start and few-shot news recommendation.
- Abstract(参考訳): ニュースレコメンデーションを提供するという点で、ニュースレコメンデーションシステムには、急速に多くの多言語ニュースコンシューマーが挑戦している。
まず、既存のニューラルニュースレコメンダは、マルチリンガル言語モデル(LM)を使用しても、ゼロショットクロスリンガル転送(ZS-XLT)でかなりのパフォーマンス損失を被る。
第2に、タスク固有のデータに対するニューラルレコメンダのバックボーンLMを微調整する現在のパラダイムは、データが不足している、あるいは完全に利用できない、数ショットのレコメンデーションやコールドスタートセットアップにおいて、計算的に高価で実現不可能である。
本研究では,事前訓練された大規模多言語文エンコーダ(SE)からドメイン特化したニュース適応文エンコーダ(NaSE)を提案する。
この目的のために,多言語ニュース特化コーパスであるPolyNewsとPolyNewsParallelを構築し,活用する。
ニュース適応型多言語SEを導入することで、ニュースレコメンデーションのための教師付き微調整の有効性を検証し、シンプルで強力なベースラインを提案する。
(i)冷凍NaSE埋め込み
(ii)後期クリック・ビヘイビア融合。
我々は,ZS-XLTにおけるNaSEが,真のコールドスタートおよび少数ショットのニュースレコメンデーションにおいて,最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Towards Multi-Sense Cross-Lingual Alignment of Contextual Embeddings [41.148892848434585]
本稿では,バイリンガル辞書からのクロスリンガル信号のみを活用して,文脈埋め込みを感覚レベルで整列する新しい枠組みを提案する。
我々はまず,単語感覚を明示的にモデル化するために,新しい感覚認識型クロスエントロピー損失を提案する。
次に,言語間モデル事前学習のための感覚認識型クロスエントロピー損失と,複数の言語対に対する事前訓練型クロス言語モデルの上に,感覚アライメントの目的を提案する。
論文 参考訳(メタデータ) (2021-03-11T04:55:35Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Batch Clustering for Multilingual News Streaming [0.0]
多種多様で非組織的な情報が大量にあるため、読み書きは困難またはほぼ不可能である。
記事はバッチ毎に処理し、モノリンガルなローカルトピックを探し、時間と言語にまたがってリンクします。
我々のシステムは、スペイン語とドイツ語のニュースのデータセットにモノリンガルな結果を与え、英語、スペイン語、ドイツ語のニュースにクロスリンガルな結果を与える。
論文 参考訳(メタデータ) (2020-04-17T08:59:13Z) - Pre-training via Leveraging Assisting Languages and Data Selection for
Neural Machine Translation [49.51278300110449]
興味のある言語に対する単言語コーパスの不足を補うために,他の言語の単言語コーパスを活用することを提案する。
低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを活用することで、日本語と英語のモノリンガルコーパスの不足を克服できることが示された。
論文 参考訳(メタデータ) (2020-01-23T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。