論文の概要: Mixed Attention Transformer for LeveragingWord-Level Knowledge to Neural
Cross-Lingual Information Retrieval
- arxiv url: http://arxiv.org/abs/2109.02789v1
- Date: Tue, 7 Sep 2021 00:33:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 00:55:48.249968
- Title: Mixed Attention Transformer for LeveragingWord-Level Knowledge to Neural
Cross-Lingual Information Retrieval
- Title(参考訳): 言語間情報検索における単語レベルの知識を活用した混合注意トランスフォーマ
- Authors: Zhiqi Huang, Hamed Bonab, Sheikh Muhammad Sarwar, Razieh Rahimi, and
James Allan
- Abstract要約: 本稿では,辞書や翻訳表などの外部単語レベルの知識を取り入れた,MAT(Mixed Attention Transformer)を提案する。
翻訳知識をアテンションマトリックスに符号化することにより、MATを用いたモデルは、入力シーケンス内の相互翻訳された単語にフォーカスすることができる。
- 参考スコア(独自算出の注目度): 15.902630454568811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained contextualized representations offer great success for many
downstream tasks, including document ranking. The multilingual versions of such
pretrained representations provide a possibility of jointly learning many
languages with the same model. Although it is expected to gain big with such
joint training, in the case of cross lingual information retrieval (CLIR), the
models under a multilingual setting are not achieving the same level of
performance as those under a monolingual setting. We hypothesize that the
performance drop is due to the translation gap between query and documents. In
the monolingual retrieval task, because of the same lexical inputs, it is
easier for model to identify the query terms that occurred in documents.
However, in the multilingual pretrained models that the words in different
languages are projected into the same hyperspace, the model tends to translate
query terms into related terms, i.e., terms that appear in a similar context,
in addition to or sometimes rather than synonyms in the target language. This
property is creating difficulties for the model to connect terms that cooccur
in both query and document. To address this issue, we propose a novel Mixed
Attention Transformer (MAT) that incorporates external word level knowledge,
such as a dictionary or translation table. We design a sandwich like
architecture to embed MAT into the recent transformer based deep neural models.
By encoding the translation knowledge into an attention matrix, the model with
MAT is able to focus on the mutually translated words in the input sequence.
Experimental results demonstrate the effectiveness of the external knowledge
and the significant improvement of MAT embedded neural reranking model on CLIR
task.
- Abstract(参考訳): 事前制約された文脈化表現は、文書ランキングを含む多くの下流タスクで大きな成功を収めます。
このような事前学習された表現の多言語バージョンは、同じモデルで複数の言語を共同学習する可能性を提供する。
このようなジョイントトレーニングで大きく向上することが期待されているが、クロスリンガル情報検索(CLIR)の場合、多言語設定のモデルはモノリンガル設定のモデルと同等の性能を達成できない。
パフォーマンス低下はクエリとドキュメント間の翻訳ギャップによるものだと仮定した。
モノリンガル検索タスクでは、同じ語彙入力のため、文書内で発生したクエリ項をモデルで識別することがより容易である。
しかし、異なる言語の単語が同じハイパースペースに投影される多言語事前訓練モデルでは、このモデルは、クエリ項を類似した文脈に現れる用語や、ターゲット言語の同義語に加えて、場合によっては、関連する用語に変換する傾向にある。
この特性は、クエリとドキュメントの両方で共起する用語をモデルが接続することが困難になっている。
この問題に対処するために,辞書や翻訳表などの外部語レベルの知識を取り入れた新しいMAT(Mixed Attention Transformer)を提案する。
MATを最近のトランスフォーマーベースのディープニューラルモデルに組み込むために、サンドイッチのようなアーキテクチャを設計する。
翻訳知識を注目行列に符号化することにより、MATを用いたモデルは、入力シーケンス内の相互翻訳された単語に集中することができる。
実験により,CLIRタスクにおける外部知識の有効性とMAT組み込みニューラルリグレードモデルの大幅な改善が示された。
関連論文リスト
- Contextual Code Switching for Machine Translation using Language Models [1.4866655830571935]
大規模言語モデル(LLM)は近年,多種多様な言語関連タスクに多大な影響を与えている。
本稿では,複数のLLMを比較した機械翻訳タスクに特化して,コード切替タスクについて広範な研究を行う。
以上の結果から,LLMは特定のタスクに有望な結果をもたらすにもかかわらず,機械翻訳タスクにおける多言語大言語モデルよりも比較的少ない複雑性を持つモデルの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-12-20T16:40:33Z) - Assessing Linguistic Generalisation in Language Models: A Dataset for
Brazilian Portuguese [4.941630596191806]
ブラジルポルトガル語で開発されたモデルで符号化された言語情報を検査する本質的な評価課題を提案する。
これらのタスクは、異なる言語モデルが文法構造やマルチワード表現に関連する情報を一般化する方法を評価するために設計されている。
論文 参考訳(メタデータ) (2023-05-23T13:49:14Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。