論文の概要: Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval
- arxiv url: http://arxiv.org/abs/2010.13658v1
- Date: Mon, 26 Oct 2020 15:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:33:19.519584
- Title: Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval
- Title(参考訳): 制約翻訳候補:ニューラルクエリ翻訳と言語間情報検索の橋渡し
- Authors: Tianchi Bi and Liang Yao and Baosong Yang and Haibo Zhang and Weihua
Luo and Boxing Chen
- Abstract要約: 本稿では,QTのオープンターゲット語彙検索空間を,検索インデックスデータベースから抽出した重要な単語の集合に限定することで,問題を緩和する新しい手法を提案する。
提案手法を実単語CLIRシステムで活用し,検討した。
- 参考スコア(独自算出の注目度): 45.88734029123836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query translation (QT) is a key component in cross-lingual information
retrieval system (CLIR). With the help of deep learning, neural machine
translation (NMT) has shown promising results on various tasks. However, NMT is
generally trained with large-scale out-of-domain data rather than in-domain
query translation pairs. Besides, the translation model lacks a mechanism at
the inference time to guarantee the generated words to match the search index.
The two shortages of QT result in readable texts for human but inadequate
candidates for the downstream retrieval task. In this paper, we propose a novel
approach to alleviate these problems by limiting the open target vocabulary
search space of QT to a set of important words mined from search index
database. The constraint translation candidates are employed at both of
training and inference time, thus guiding the translation model to learn and
generate well performing target queries. The proposed methods are exploited and
examined in a real-word CLIR system--Aliexpress e-Commerce search engine.
Experimental results demonstrate that our approach yields better performance on
both translation quality and retrieval accuracy than the strong NMT baseline.
- Abstract(参考訳): クエリ変換(QT)は、言語間情報検索システム(CLIR)のキーコンポーネントである。
ディープラーニングの助けを借りて、ニューラルネットワーク翻訳(NMT)は様々なタスクにおいて有望な結果を示している。
しかし、nmtは通常、ドメイン内クエリの翻訳ペアではなく、大規模なドメイン外データでトレーニングされる。
さらに、翻訳モデルには、生成された単語が検索インデックスと一致することを保証するメカニズムが欠けている。
QTの2つの不足は、ダウンストリーム検索タスクの候補が不十分な人に対して読みやすいテキストをもたらす。
本稿では,QTのオープンターゲット語彙検索空間を検索インデックスデータベースから抽出した重要な単語の集合に限定することで,これらの問題を緩和する新しい手法を提案する。
制約翻訳候補は、トレーニングと推論の両方のタイミングで採用され、翻訳モデルを学習し、適切に実行されるターゲットクエリを生成するように導く。
提案手法を実単語CLIRシステムで活用し,検討した。
実験の結果,本手法は,強いnmtベースラインよりも翻訳品質と検索精度に優れることがわかった。
関連論文リスト
- A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Exploiting Curriculum Learning in Unsupervised Neural Machine
Translation [28.75229367700697]
複数の粒度から擬似バイテキストを徐々に活用するカリキュラム学習手法を提案する。
WMT 14 En-Fr, WMT 16 En-De, WMT 16 En-Ro, LDC En-Zh 翻訳タスクの実験結果から,提案手法はより高速な収束速度で一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2021-09-23T07:18:06Z) - Exploiting Neural Query Translation into Cross Lingual Information
Retrieval [49.167049709403166]
既存のCLIRシステムは、高度ニューラルネットワーク翻訳(NMT)ではなく、統計ベースの機械翻訳(SMT)を主に活用している
本稿では,ユーザクリックスルーデータに基づいてクエリ変換ペアを抽出する新しいデータ拡張手法を提案する。
実験結果から,提案手法は強いベースラインよりも高い検索精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-10-26T15:28:19Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。