論文の概要: Cross-lingual Contextualized Phrase Retrieval
- arxiv url: http://arxiv.org/abs/2403.16820v1
- Date: Mon, 25 Mar 2024 14:46:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:54:11.416932
- Title: Cross-lingual Contextualized Phrase Retrieval
- Title(参考訳): 言語間の文脈化されたフレーズ検索
- Authors: Huayang Li, Deng Cai, Zhi Qu, Qu Cui, Hidetaka Kamigaito, Lemao Liu, Taro Watanabe,
- Abstract要約: そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
- 参考スコア(独自算出の注目度): 63.80154430930898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phrase-level dense retrieval has shown many appealing characteristics in downstream NLP tasks by leveraging the fine-grained information that phrases offer. In our work, we propose a new task formulation of dense retrieval, cross-lingual contextualized phrase retrieval, which aims to augment cross-lingual applications by addressing polysemy using context information. However, the lack of specific training data and models are the primary challenges to achieve our goal. As a result, we extract pairs of cross-lingual phrases using word alignment information automatically induced from parallel sentences. Subsequently, we train our Cross-lingual Contextualized Phrase Retriever (CCPR) using contrastive learning, which encourages the hidden representations of phrases with similar contexts and semantics to align closely. Comprehensive experiments on both the cross-lingual phrase retrieval task and a downstream task, i.e, machine translation, demonstrate the effectiveness of CCPR. On the phrase retrieval task, CCPR surpasses baselines by a significant margin, achieving a top-1 accuracy that is at least 13 points higher. When utilizing CCPR to augment the large-language-model-based translator, it achieves average gains of 0.7 and 1.5 in BERTScore for translations from X=>En and vice versa, respectively, on WMT16 dataset. Our code and data are available at \url{https://github.com/ghrua/ccpr_release}.
- Abstract(参考訳): フレーズレベルの高密度検索は、フレーズが提供するきめ細かい情報を活用することで、下流のNLPタスクに多くの魅力的な特徴を示してきた。
本研究では,文脈情報を用いた多義語処理による多義語処理の強化を目的とした,多義語検索,多義語句検索の新たなタスク定式化を提案する。
しかしながら、特定のトレーニングデータやモデルがないことが、私たちの目標を達成するための大きな課題です。
その結果,パラレル文から自動生成される単語アライメント情報を用いて,言語横断句のペアを抽出する。
その後、コントラスト学習を用いて、言語間コンテクスト化されたフレーズ検索(CCPR)を訓練し、類似した文脈と意味を持つフレーズの隠れ表現を、密接に整合させることを奨励する。
言語横断句検索タスクと下流タスク,すなわち機械翻訳の総合的な実験は,CCPRの有効性を実証する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
CCPRを用いて大言語モデルベースの翻訳を行う場合、WMT16データセット上で、X=>Enからの翻訳に対してBERTScoreの0.7と1.5の平均ゲインを達成する。
私たちのコードとデータは、 \url{https://github.com/ghrua/ccpr_release}で利用可能です。
関連論文リスト
- CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - Cross-Lingual Phrase Retrieval [49.919180978902915]
言語横断検索は、言語間で関連するテキストを検索することを目的としている。
現在の方法では、言語に依存しないテキスト表現を単語や文レベルで学習することで、言語間検索が典型的である。
本稿では,ラベルなし例文から句表現を抽出する言語横断句検索システムXPRを提案する。
論文 参考訳(メタデータ) (2022-04-19T13:35:50Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - MCL@IITK at SemEval-2021 Task 2: Multilingual and Cross-lingual
Word-in-Context Disambiguation using Augmented Data, Signals, and
Transformers [1.869621561196521]
我々はSemEval 2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) の解法を提案する。
目的は、両方の文に共通する単語が同じ意味を引き起こすかどうかを検出することである。
多言語とクロスリンガルの両方の設定のためのシステムを提出します。
論文 参考訳(メタデータ) (2021-04-04T08:49:28Z) - Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval [45.88734029123836]
本稿では,QTのオープンターゲット語彙検索空間を,検索インデックスデータベースから抽出した重要な単語の集合に限定することで,問題を緩和する新しい手法を提案する。
提案手法を実単語CLIRシステムで活用し,検討した。
論文 参考訳(メタデータ) (2020-10-26T15:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。