Fugu-MT 論文翻訳(概要): Study of Encoder-Decoder Architectures for Code-Mix Search Query Translation

論文の概要: Study of Encoder-Decoder Architectures for Code-Mix Search Query Translation

arxiv url: http://arxiv.org/abs/2208.03713v1
Date: Sun, 7 Aug 2022 12:59:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-09 13:01:44.403446
Title: Study of Encoder-Decoder Architectures for Code-Mix Search Query Translation
Title（参考訳）: コードミクス検索クエリ変換のためのエンコーダ・デコーダアーキテクチャの検討
Authors: Mandar Kulkarni, Soumya Chennabasavaraj, Nikesh Garera
Abstract要約: 私たちが受け取るクエリの多くはコードミックスであり、特にHinglishは英語(ラテン語)スクリプトで書かれた1つ以上のヒンディー語のクエリである。本稿では,これらのクエリをユーザが検索できるように,コードミックスクエリ変換のためのトランスフォーマーベースのアプローチを提案する。モデルは現在、アプリとウェブサイトで公開されており、数百万のクエリーを提供している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the broad reach of the internet and smartphones, e-commerce platforms have an increasingly diversified user base. Since native language users are not conversant in English, their preferred browsing mode is their regional language or a combination of their regional language and English. From our recent study on the query data, we noticed that many of the queries we receive are code-mix, specifically Hinglish i.e. queries with one or more Hindi words written in English (Latin) script. We propose a transformer-based approach for code-mix query translation to enable users to search with these queries. We demonstrate the effectiveness of pre-trained encoder-decoder models trained on a large corpus of the unlabeled English text for this task. Using generic domain translation models, we created a pseudo-labelled dataset for training the model on the search queries and verified the effectiveness of various data augmentation techniques. Further, to reduce the latency of the model, we use knowledge distillation and weight quantization. Effectiveness of the proposed method has been validated through experimental evaluations and A/B testing. The model is currently live on Flipkart app and website, serving millions of queries.
Abstract（参考訳）: インターネットとスマートフォンの普及に伴い、eコマースプラットフォームはますます多様なユーザーベースを持つようになっている。ネイティブ・ランゲージのユーザーは英語で会話できないため、彼らの好みのブラウジング・モードは地域言語または地域言語と英語の組み合わせである。問い合わせデータに関する最近の研究から、私たちが受け取ったクエリの多くはコードミックスであり、特にHinglishは英語(ラテン語)スクリプトで書かれた1つ以上のヒンディー語によるクエリであることがわかった。本稿では,これらのクエリをユーザが検索できるように,コードミックスクエリ変換のためのトランスフォーマーベースのアプローチを提案する。本課題は,未ラベル英語テキストの大きなコーパスで学習したプリトレーニングエンコーダ・デコーダモデルの有効性を示す。汎用的なドメイン翻訳モデルを用いて,検索クエリでモデルをトレーニングするための擬似ラベル付きデータセットを作成し,様々なデータ拡張手法の有効性を検証した。さらに, モデルの遅延を低減するために, 知識蒸留と重み量子化を用いる。提案手法の有効性は実験評価とa/b試験により検証された。モデルは現在flipkartアプリとwebサイトで公開されており、数百万のクエリーを提供する。

関連論文リスト

mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文参考訳（メタデータ） (2025-01-31T16:24:46Z)
Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。 GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文参考訳（メタデータ） (2024-05-27T08:08:51Z)
Constructing Multilingual Code Search Dataset Using Neural Machine Translation [48.32329232202801]
我々は4つの自然言語および4つのプログラミング言語で多言語コード検索データセットを作成する。その結果,すべての自然言語およびプログラミング言語データで事前学習したモデルが,ほとんどのケースで最善を尽くしていることがわかった。
論文参考訳（メタデータ） (2023-06-27T16:42:36Z)
Leveraging Language Identification to Enhance Code-Mixed Text Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文参考訳（メタデータ） (2023-06-08T06:43:10Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文参考訳（メタデータ） (2022-10-25T01:33:49Z)
Mixed Attention Transformer for LeveragingWord-Level Knowledge to Neural Cross-Lingual Information Retrieval [15.902630454568811]
本稿では,辞書や翻訳表などの外部単語レベルの知識を取り入れた,MAT(Mixed Attention Transformer)を提案する。翻訳知識をアテンションマトリックスに符号化することにより、MATを用いたモデルは、入力シーケンス内の相互翻訳された単語にフォーカスすることができる。
論文参考訳（メタデータ） (2021-09-07T00:33:14Z)
Exploring Text-to-Text Transformers for English to Hinglish Machine Translation with Synthetic Code-Mixing [19.19256927651015]
モノリンガル英語のテキストをHinglish(コード混合ヒンディー語と英語)に変換するモデルを記述する。事前訓練された言語モデルの最近の成功を踏まえ、トランスフォーマーベースのエンコーダデコーダモデルの実用性についても検証する。私たちのモデルは、英語と英語の公式共有タスクの全体的なランキングで第一位です。
論文参考訳（メタデータ） (2021-05-18T19:50:25Z)
Role of Artificial Intelligence in Detection of Hateful Speech for Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文参考訳（メタデータ） (2021-05-11T10:02:28Z)
Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文参考訳（メタデータ） (2021-02-20T03:52:08Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。