論文の概要: Exploiting Neural Query Translation into Cross Lingual Information
Retrieval
- arxiv url: http://arxiv.org/abs/2010.13659v1
- Date: Mon, 26 Oct 2020 15:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:33:05.120706
- Title: Exploiting Neural Query Translation into Cross Lingual Information
Retrieval
- Title(参考訳): 言語横断情報検索のためのニューラルクエリー翻訳
- Authors: Liang Yao and Baosong Yang and Haibo Zhang and Weihua Luo and Boxing
Chen
- Abstract要約: 既存のCLIRシステムは、高度ニューラルネットワーク翻訳(NMT)ではなく、統計ベースの機械翻訳(SMT)を主に活用している
本稿では,ユーザクリックスルーデータに基づいてクエリ変換ペアを抽出する新しいデータ拡張手法を提案する。
実験結果から,提案手法は強いベースラインよりも高い検索精度が得られることがわかった。
- 参考スコア(独自算出の注目度): 49.167049709403166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a crucial role in cross-language information retrieval (CLIR), query
translation has three main challenges: 1) the adequacy of translation; 2) the
lack of in-domain parallel training data; and 3) the requisite of low latency.
To this end, existing CLIR systems mainly exploit statistical-based machine
translation (SMT) rather than the advanced neural machine translation (NMT),
limiting the further improvements on both translation and retrieval quality. In
this paper, we investigate how to exploit neural query translation model into
CLIR system. Specifically, we propose a novel data augmentation method that
extracts query translation pairs according to user clickthrough data, thus to
alleviate the problem of domain-adaptation in NMT. Then, we introduce an
asynchronous strategy which is able to leverage the advantages of the real-time
in SMT and the veracity in NMT. Experimental results reveal that the proposed
approach yields better retrieval quality than strong baselines and can be well
applied into a real-world CLIR system, i.e. Aliexpress e-Commerce search
engine. Readers can examine and test their cases on our website:
https://aliexpress.com .
- Abstract(参考訳): 言語間情報検索(CLIR)における重要な役割として,クエリ翻訳には3つの課題がある。
1) 翻訳の妥当性
2)ドメイン内並列トレーニングデータの欠如,及び
3)低レイテンシの必要性。
この目的のために、既存のclirシステムはadvanced neural machine translation(nmt)ではなく、統計ベースの機械翻訳(smt)を主に活用し、翻訳と検索品質のさらなる改善を制限している。
本稿では,CLIRシステムへのニューラルクエリ変換モデルの利用方法を検討する。
具体的には,NMTにおけるドメイン適応の問題を軽減するために,ユーザクリックスルーデータに基づいてクエリ変換ペアを抽出する新しいデータ拡張手法を提案する。
次に,SMTにおけるリアルタイムの利点とNMTにおける正確性を活用する非同期戦略を提案する。
実験結果から,提案手法は強いベースラインよりも検索精度が高く,現実のCLIRシステム,すなわちAli Express e-Commerce検索エンジンによく適用できることがわかった。
読者は私たちのウェブサイトでケースを調べてテストすることができる。
関連論文リスト
- LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Textual Augmentation Techniques Applied to Low Resource Machine
Translation: Case of Swahili [1.9686054517684888]
機械翻訳において、世界中の言語ペアのほとんどは、ほとんど並列データがないため、低リソースと見なされている。
テキスト分類タスクで広く使われている3つの単純なデータ拡張手法を研究・適用する。
多様なデータセットでより広範な実験を行う場合には、これらの手法をニューラルネットワーク翻訳に使用する可能性がある。
論文 参考訳(メタデータ) (2023-06-12T20:43:24Z) - Exploiting Language Relatedness in Machine Translation Through Domain
Adaptation Techniques [3.257358540764261]
文のスケール化類似度スコアを,特に5グラムのKenLM言語モデルに基づく関連言語に適用する手法を提案する。
提案手法は, マルチドメインアプローチでは2 BLEU点, NMTでは3 BLEU点, 反復的バックトランスレーションアプローチでは2 BLEU点の増加に成功している。
論文 参考訳(メタデータ) (2023-03-03T09:07:30Z) - A Survey on Low-Resource Neural Machine Translation [106.51056217748388]
我々は、関連する作品を、使用した補助データに基づいて3つのカテゴリに分類する。
私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
論文 参考訳(メタデータ) (2021-07-09T06:26:38Z) - Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval [45.88734029123836]
本稿では,QTのオープンターゲット語彙検索空間を,検索インデックスデータベースから抽出した重要な単語の集合に限定することで,問題を緩和する新しい手法を提案する。
提案手法を実単語CLIRシステムで活用し,検討した。
論文 参考訳(メタデータ) (2020-10-26T15:27:51Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。