論文の概要: Cross-Lingual Phrase Retrieval
- arxiv url: http://arxiv.org/abs/2204.08887v1
- Date: Tue, 19 Apr 2022 13:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 16:56:28.595237
- Title: Cross-Lingual Phrase Retrieval
- Title(参考訳): 言語横断句検索
- Authors: Heqi Zheng, Xiao Zhang, Zewen Chi, Heyan Huang, Tan Yan, Tian Lan, Wei
Wei, Xian-Ling Mao
- Abstract要約: 言語横断検索は、言語間で関連するテキストを検索することを目的としている。
現在の方法では、言語に依存しないテキスト表現を単語や文レベルで学習することで、言語間検索が典型的である。
本稿では,ラベルなし例文から句表現を抽出する言語横断句検索システムXPRを提案する。
- 参考スコア(独自算出の注目度): 49.919180978902915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual retrieval aims to retrieve relevant text across languages.
Current methods typically achieve cross-lingual retrieval by learning
language-agnostic text representations in word or sentence level. However, how
to learn phrase representations for cross-lingual phrase retrieval is still an
open problem. In this paper, we propose XPR, a cross-lingual phrase retriever
that extracts phrase representations from unlabeled example sentences.
Moreover, we create a large-scale cross-lingual phrase retrieval dataset, which
contains 65K bilingual phrase pairs and 4.2M example sentences in 8
English-centric language pairs. Experimental results show that XPR outperforms
state-of-the-art baselines which utilize word-level or sentence-level
representations. XPR also shows impressive zero-shot transferability that
enables the model to perform retrieval in an unseen language pair during
training. Our dataset, code, and trained models are publicly available at
www.github.com/cwszz/XPR/.
- Abstract(参考訳): 言語間検索は、言語間の関連テキストの検索を目的としている。
現在の方法では、言語に依存しないテキスト表現を単語や文レベルで学習することで、言語間検索が典型的である。
しかし, 言語間語句検索における句表現の学習方法は, いまだに未解決の問題である。
本稿では,ラベルのない例文から句表現を抽出するクロスリンガル句検索器であるxprを提案する。
さらに、65Kのバイリンガル句対と4.2Mのサンプル文を8つの英語中心の言語対に含む大規模言語間句検索データセットを作成する。
実験の結果,xprは単語レベルの表現や文レベルの表現を用いた最先端のベースラインよりも優れていることがわかった。
またxprは印象的なゼロショット転送性を示しており、トレーニング中にモデルが見当たらない言語ペアで検索を行うことができる。
私たちのデータセット、コード、トレーニングされたモデルはwww.github.com/cwszz/XPR/で公開されています。
関連論文リスト
- XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples [64.79218405438871]
XAMPLER: 言語横断学習の課題に対処するための手法であるクロス言語実例検索法を紹介する。
XAMPLERは最初、英語の肯定的な例と否定的な例を用いて、多言語小言語モデルGlot500に基づいてレトリバーを訓練する。
ターゲット言語の文脈内学習の例として、英語の例を直接検索することができる。
論文 参考訳(メタデータ) (2024-05-08T15:13:33Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Multilingual Representation Distillation with Contrastive Learning [20.715534360712425]
コントラスト学習を多言語表現蒸留に統合し,並列文の品質評価に利用する。
我々は,多言語類似性探索とコーパスフィルタリングタスクによるアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2022-10-10T22:27:04Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - Backretrieval: An Image-Pivoted Evaluation Metric for Cross-Lingual Text
Representations Without Parallel Corpora [19.02834713111249]
Backretrievalは、注釈付きデータセットの地上の真実メトリクスと相関している。
本実験は,並列言語間データを用いないレシピデータセットのケーススタディで締めくくった。
論文 参考訳(メタデータ) (2021-05-11T12:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。