論文の概要: Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training
- arxiv url: http://arxiv.org/abs/2205.10471v1
- Date: Sat, 21 May 2022 00:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 14:16:11.879156
- Title: Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training
- Title(参考訳): Retriever-Generatorイテレーティブトレーニングを用いた検索強化多言語キーワード生成
- Authors: Yifan Gao, Qingyu Yin, Zheng Li, Rui Meng, Tong Zhao, Bing Yin, Irwin
King, Michael R. Lyu
- Abstract要約: キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
- 参考スコア(独自算出の注目度): 66.64843711515341
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Keyphrase generation is the task of automatically predicting keyphrases given
a piece of long text. Despite its recent flourishing, keyphrase generation on
non-English languages haven't been vastly investigated. In this paper, we call
attention to a new setting named multilingual keyphrase generation and we
contribute two new datasets, EcommerceMKP and AcademicMKP, covering six
languages. Technically, we propose a retrieval-augmented method for
multilingual keyphrase generation to mitigate the data shortage problem in
non-English languages. The retrieval-augmented model leverages keyphrase
annotations in English datasets to facilitate generating keyphrases in
low-resource languages. Given a non-English passage, a cross-lingual dense
passage retrieval module finds relevant English passages. Then the associated
English keyphrases serve as external knowledge for keyphrase generation in the
current language. Moreover, we develop a retriever-generator iterative training
algorithm to mine pseudo parallel passage pairs to strengthen the cross-lingual
passage retriever. Comprehensive experiments and ablations show that the
proposed approach outperforms all baselines.
- Abstract(参考訳): キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
近年の隆盛にもかかわらず、非英語でのキーフレーズ生成は、あまり調査されていない。
本稿では,多言語キーフレーズ生成という新しいセッティングに注目し,ECommerceMKPとAcademicMKPという2つの新しいデータセットを6つの言語で提供する。
本稿では,非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索型手法を提案する。
検索強化モデルは、英語データセットのキーフレーズアノテーションを利用して、低リソース言語でキーフレーズを生成する。
非英語のパッセージが与えられると、言語間密なパッセージ検索モジュールは関連する英語のパッセージを見つける。
その後、関連する英語キーフレーズは、現在の言語におけるキーフレーズ生成の外部知識として機能する。
さらに, 擬似並列通路ペアをマイニングし, 言語横断通路レトリバーを強化するレトリバー-ジェネレータ反復学習アルゴリズムを開発した。
包括的な実験とアブレーションは、提案手法が全てのベースラインを上回ることを示している。
関連論文リスト
- Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Multilingual Lexical Simplification via Paraphrase Generation [19.275642346073557]
パラフレーズ生成による新しい多言語LS法を提案する。
パラフレーズ処理は多言語ニューラルマシン翻訳におけるゼロショット翻訳タスクとみなす。
提案手法は,英語,スペイン語,ポルトガル語で,BERT法とゼロショットGPT3法を大きく上回る。
論文 参考訳(メタデータ) (2023-07-28T03:47:44Z) - ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual
Open-retrieval Question Answering System [16.89747171947662]
本稿では,言語横断的オープン-検索質問応答(COQA)におけるMIA共有タスクを提案する。
この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、その質問の言語で回答を生成する必要がある。
データ拡張(Data Augmentation)、パッセージ検索(Passage Retrieval)、Answer Generation(Answer Generation)の3つの主要コンポーネントに対して、異なるモデル変種を組み合わせたいくつかのアプローチを考案した。
論文 参考訳(メタデータ) (2022-05-30T10:31:08Z) - Cross-Lingual Phrase Retrieval [49.919180978902915]
言語横断検索は、言語間で関連するテキストを検索することを目的としている。
現在の方法では、言語に依存しないテキスト表現を単語や文レベルで学習することで、言語間検索が典型的である。
本稿では,ラベルなし例文から句表現を抽出する言語横断句検索システムXPRを提案する。
論文 参考訳(メタデータ) (2022-04-19T13:35:50Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Towards Document-Level Paraphrase Generation with Sentence Rewriting and
Reordering [88.08581016329398]
文書レベルのパラフレーズ生成のためのCoRPG(Coherence Relation Guided Paraphrase Generation)を提案する。
グラフGRUを用いて、コヒーレンス関係グラフを符号化し、各文のコヒーレンス対応表現を得る。
我々のモデルは、より多様性とセマンティックな保存を伴う文書パラフレーズを生成することができる。
論文 参考訳(メタデータ) (2021-09-15T05:53:40Z) - Paraphrase Generation as Zero-Shot Multilingual Translation:
Disentangling Semantic Similarity from Lexical and Syntactic Diversity [11.564158965143418]
本稿では,入力に含まれるn-gramの生成を阻害する単純なパラフレーズ生成アルゴリズムを提案する。
一つの多言語NMTモデルから多くの言語でパラフレーズ生成が可能となる。
論文 参考訳(メタデータ) (2020-08-11T18:05:34Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。