論文の概要: Vernacular Search Query Translation with Unsupervised Domain Adaptation
- arxiv url: http://arxiv.org/abs/2208.03711v1
- Date: Sun, 7 Aug 2022 12:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:02:01.712945
- Title: Vernacular Search Query Translation with Unsupervised Domain Adaptation
- Title(参考訳): 教師なしドメイン適応による頂点探索クエリ翻訳
- Authors: Mandar Kulkarni, Nikesh Garera
- Abstract要約: 言語間情報検索 (CLIR) には正確なクエリ変換が不可欠である。
本稿では,並列コーパスを使わずに検索クエリを翻訳するための教師なし領域適応手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the democratization of e-commerce platforms, an increasingly diversified
user base is opting to shop online. To provide a comfortable and reliable
shopping experience, it's important to enable users to interact with the
platform in the language of their choice. An accurate query translation is
essential for Cross-Lingual Information Retrieval (CLIR) with vernacular
queries. Due to internet-scale operations, e-commerce platforms get millions of
search queries every day. However, creating a parallel training set to train an
in-domain translation model is cumbersome. This paper proposes an unsupervised
domain adaptation approach to translate search queries without using any
parallel corpus. We use an open-domain translation model (trained on public
corpus) and adapt it to the query data using only the monolingual queries from
two languages. In addition, fine-tuning with a small labeled set further
improves the result. For demonstration, we show results for Hindi to English
query translation and use mBART-large-50 model as the baseline to improve upon.
Experimental results show that, without using any parallel corpus, we obtain
more than 20 BLEU points improvement over the baseline while fine-tuning with a
small 50k labeled set provides more than 27 BLEU points improvement over the
baseline.
- Abstract(参考訳): 電子商取引プラットフォームの民主化に伴い、多様化するユーザー基盤はオンラインショッピングを選択している。
快適で信頼性の高いショッピング体験を提供するには、ユーザが選択した言語でプラットフォームと対話できるようにすることが重要です。
言語間情報検索 (CLIR) には正確なクエリ変換が不可欠である。
インターネット規模の運用のため、eコマースプラットフォームは毎日何百万もの検索クエリを受け取る。
しかし、ドメイン内翻訳モデルをトレーニングするための並列トレーニングセットを作成するのは面倒です。
本稿では,並列コーパスを使わずに検索クエリを翻訳するための教師なしドメイン適応手法を提案する。
オープンドメイン翻訳モデル(パブリックコーパスで学習)を用いて,2つの言語からの単言語クエリのみを用いてクエリデータに適応する。
さらに、小さなラベル付きセットによる微調整により、さらに結果が向上する。
実演では、ヒンディー語から英語へのクエリ翻訳の結果を示し、mBART-large-50モデルをベースラインとして使用して改善する。
実験の結果, 並列コーパスを使わずに, 20点以上のBLEU点改善をベースライン上で達成し, 小さい50kラベルセットで微調整することでベースライン上で27点以上のBLEU点改善を実現した。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Metasql: A Generate-then-Rank Framework for Natural Language to SQL
Translation [10.812409371488913]
本稿では,既存のNLIDBに柔軟に組み込むことができ,翻訳精度を一貫して向上する統合生成列フレームワークを提案する。
Metasqlは、より良いクエリ候補の生成を制御するためにクエリメタデータを導入し、グローバルに最適化されたクエリを検索するために学習からランクアルゴリズムを使用する。
その結果,Metasqlを用いて翻訳モデルの性能を効果的に改善できることが示唆された。
論文 参考訳(メタデータ) (2024-02-27T02:16:07Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Study of Encoder-Decoder Architectures for Code-Mix Search Query
Translation [0.0]
私たちが受け取るクエリの多くはコードミックスであり、特にHinglishは英語(ラテン語)スクリプトで書かれた1つ以上のヒンディー語のクエリである。
本稿では,これらのクエリをユーザが検索できるように,コードミックスクエリ変換のためのトランスフォーマーベースのアプローチを提案する。
モデルは現在、アプリとウェブサイトで公開されており、数百万のクエリーを提供している。
論文 参考訳(メタデータ) (2022-08-07T12:59:50Z) - Query Rewriting via Cycle-Consistent Translation for E-Commerce Search [13.723266150864037]
本稿では,新しいディープニューラルネットワークによる問合せ書き換え手法を提案する。
繰り返し機械翻訳問題にクエリ書き換えを定式化します。
最新の機械翻訳モデルと連動した、新しいサイクル整合性トレーニングアルゴリズムを紹介します。
論文 参考訳(メタデータ) (2021-03-01T06:47:12Z) - DBTagger: Multi-Task Learning for Keyword Mapping in NLIDBs Using
Bi-Directional Recurrent Neural Networks [0.2578242050187029]
NLQのPOSタグを利用した新しいディープラーニングに基づく教師付きアプローチを提案する。
8つの異なるデータセットに対するアプローチを評価し、最新の精度結果、平均92.4%$を報告します。
論文 参考訳(メタデータ) (2021-01-11T22:54:39Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。