論文の概要: Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval
- arxiv url: http://arxiv.org/abs/2010.13658v1
- Date: Mon, 26 Oct 2020 15:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:33:19.519584
- Title: Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval
- Title(参考訳): 制約翻訳候補:ニューラルクエリ翻訳と言語間情報検索の橋渡し
- Authors: Tianchi Bi and Liang Yao and Baosong Yang and Haibo Zhang and Weihua
Luo and Boxing Chen
- Abstract要約: 本稿では,QTのオープンターゲット語彙検索空間を,検索インデックスデータベースから抽出した重要な単語の集合に限定することで,問題を緩和する新しい手法を提案する。
提案手法を実単語CLIRシステムで活用し,検討した。
- 参考スコア(独自算出の注目度): 45.88734029123836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query translation (QT) is a key component in cross-lingual information
retrieval system (CLIR). With the help of deep learning, neural machine
translation (NMT) has shown promising results on various tasks. However, NMT is
generally trained with large-scale out-of-domain data rather than in-domain
query translation pairs. Besides, the translation model lacks a mechanism at
the inference time to guarantee the generated words to match the search index.
The two shortages of QT result in readable texts for human but inadequate
candidates for the downstream retrieval task. In this paper, we propose a novel
approach to alleviate these problems by limiting the open target vocabulary
search space of QT to a set of important words mined from search index
database. The constraint translation candidates are employed at both of
training and inference time, thus guiding the translation model to learn and
generate well performing target queries. The proposed methods are exploited and
examined in a real-word CLIR system--Aliexpress e-Commerce search engine.
Experimental results demonstrate that our approach yields better performance on
both translation quality and retrieval accuracy than the strong NMT baseline.
- Abstract(参考訳): クエリ変換(QT)は、言語間情報検索システム(CLIR)のキーコンポーネントである。
ディープラーニングの助けを借りて、ニューラルネットワーク翻訳(NMT)は様々なタスクにおいて有望な結果を示している。
しかし、nmtは通常、ドメイン内クエリの翻訳ペアではなく、大規模なドメイン外データでトレーニングされる。
さらに、翻訳モデルには、生成された単語が検索インデックスと一致することを保証するメカニズムが欠けている。
QTの2つの不足は、ダウンストリーム検索タスクの候補が不十分な人に対して読みやすいテキストをもたらす。
本稿では,QTのオープンターゲット語彙検索空間を検索インデックスデータベースから抽出した重要な単語の集合に限定することで,これらの問題を緩和する新しい手法を提案する。
制約翻訳候補は、トレーニングと推論の両方のタイミングで採用され、翻訳モデルを学習し、適切に実行されるターゲットクエリを生成するように導く。
提案手法を実単語CLIRシステムで活用し,検討した。
実験の結果,本手法は,強いnmtベースラインよりも翻訳品質と検索精度に優れることがわかった。
関連論文リスト
- An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Exploiting Curriculum Learning in Unsupervised Neural Machine
Translation [28.75229367700697]
複数の粒度から擬似バイテキストを徐々に活用するカリキュラム学習手法を提案する。
WMT 14 En-Fr, WMT 16 En-De, WMT 16 En-Ro, LDC En-Zh 翻訳タスクの実験結果から,提案手法はより高速な収束速度で一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2021-09-23T07:18:06Z) - Majority Voting with Bidirectional Pre-translation For Bitext Retrieval [2.580271290008534]
一般的なアプローチは、2つの言語でペアの文書からいわゆる"pseudo-parallel"文をマイニングすることであった。
本稿では,現状の手法による問題を概説し,それらの問題に対する計算経済的解決策を提案し,新しい手法による成功を実証する。
実験に使用されるコードとデータは公開されています。
論文 参考訳(メタデータ) (2021-03-10T22:24:01Z) - Exploiting Neural Query Translation into Cross Lingual Information
Retrieval [49.167049709403166]
既存のCLIRシステムは、高度ニューラルネットワーク翻訳(NMT)ではなく、統計ベースの機械翻訳(SMT)を主に活用している
本稿では,ユーザクリックスルーデータに基づいてクエリ変換ペアを抽出する新しいデータ拡張手法を提案する。
実験結果から,提案手法は強いベースラインよりも高い検索精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-10-26T15:28:19Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。