論文の概要: Improving Cross-lingual Representation for Semantic Retrieval with
Code-switching
- arxiv url: http://arxiv.org/abs/2403.01364v1
- Date: Sun, 3 Mar 2024 01:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 23:09:23.799774
- Title: Improving Cross-lingual Representation for Semantic Retrieval with
Code-switching
- Title(参考訳): コードスイッチングによる意味検索のための言語間表現の改善
- Authors: Mieradilijiang Maimaiti, Yuanhang Zheng, Ji Zhang, Fei Huang, Yue
Zhang, Wenpei Luo, Kaiyu Huang
- Abstract要約: コードスイッチングによるSRのための代替言語間PTMを提案する。
我々は、コードスイッチング方式を初めて言語間SRに利用し、また、SRタスク上で直接 PTM を使用する代わりに、コードスイッチング型継続事前学習を導入する。
- 参考スコア(独自算出の注目度): 35.54420336373573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic Retrieval (SR) has become an indispensable part of the FAQ system in
the task-oriented question-answering (QA) dialogue scenario. The demands for a
cross-lingual smart-customer-service system for an e-commerce platform or some
particular business conditions have been increasing recently. Most previous
studies exploit cross-lingual pre-trained models (PTMs) for multi-lingual
knowledge retrieval directly, while some others also leverage the continual
pre-training before fine-tuning PTMs on the downstream tasks. However, no
matter which schema is used, the previous work ignores to inform PTMs of some
features of the downstream task, i.e. train their PTMs without providing any
signals related to SR. To this end, in this work, we propose an Alternative
Cross-lingual PTM for SR via code-switching. We are the first to utilize the
code-switching approach for cross-lingual SR. Besides, we introduce the novel
code-switched continual pre-training instead of directly using the PTMs on the
SR tasks. The experimental results show that our proposed approach consistently
outperforms the previous SOTA methods on SR and semantic textual similarity
(STS) tasks with three business corpora and four open datasets in 20+
languages.
- Abstract(参考訳): Semantic Retrieval (SR) はタスク指向質問応答 (QA) 対話シナリオにおいてFAQシステムに不可欠な部分となっている。
eコマースプラットフォームのための言語横断型スマートカスタマーサービスシステムや、特定のビジネス条件に対する要求が近年増加している。
従来の研究では、多言語知識の直接検索には言語間事前学習モデル(PTM)が用いられており、ダウンストリームタスクでは微調整前の継続事前学習も活用されている。
しかしながら、どのスキーマを使っても、以前の作業は、ダウンストリームタスクのいくつかの機能、すなわち、SRに関連する信号を提供することなく、PTMをトレーニングするということをPTMに通知することを無視する。
そこで本研究では,コードスイッチングによるSRのための代替言語PSMを提案する。
私たちは、コードスイッチングアプローチを言語間SRに初めて利用しました。
また,SRタスク上で直接 PTM を使用する代わりに,コードスイッチ付き連続事前学習を導入する。
実験の結果,提案手法はSRにおける従来のSOTA手法と意味的テキスト類似性(STS)タスクを,20以上の言語で3つのビジネスコーパスと4つのオープンデータセットで一貫して上回ることがわかった。
関連論文リスト
- Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - On Task-Adaptive Pretraining for Dialogue Response Selection [9.502775168613589]
本稿では,従来の進歩における仮定を検証し,対話応答選択(DRS)の改善の源泉を理解することを目的とする。
我々は,RoBERTaの初期化がBERTと同じような性能を達成できることを示し,提案したTAPタスクのすべてに対して,予測+NSPが優れていることを示す。
さらなる分析では、改善の主な原因はTAPステップによるもので、NSPタスクがDSSにとって重要であることが示されている。
論文 参考訳(メタデータ) (2022-10-08T17:58:49Z) - ESPnet-SE++: Speech Enhancement for Robust Speech Recognition,
Translation, and Understanding [86.47555696652618]
本稿では,音声分離と拡張をESPnetツールキットに統合する最近の進歩について述べる。
新しいインタフェースは、音声認識(ASR)、音声翻訳(ST)、音声言語理解(SLU)など、音声強調フロントエンドと他のタスクを併用するように設計されている。
その結果,SEフロントエンドとバックエンドタスクの統合は,ASR以外のタスクにおいても有望な研究方向であることが示唆された。
論文 参考訳(メタデータ) (2022-07-19T18:55:29Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Learning Domain Specific Language Models for Automatic Speech
Recognition through Machine Translation [0.0]
我々は、タスク固有のテキストデータの翻訳を最初に取得するために、中間ステップとしてNeural Machine Translationを使用します。
我々はNMTビームサーチグラフから単語混乱ネットワークを導出する手法を開発した。
NMT混在ネットワークは、n-gramと繰り返しニューラルネットワークLMの両方の難易度を低減するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-21T10:29:20Z) - Arabic Code-Switching Speech Recognition using Monolingual Data [13.513655231184261]
自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。
最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。
我々は,大規模ASR実験を通じて,ASRの多言語モデリングに関連する重要な課題について検討した。
論文 参考訳(メタデータ) (2021-07-04T08:40:49Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。