論文の概要: Semantic Search as Extractive Paraphrase Span Detection
- arxiv url: http://arxiv.org/abs/2112.04886v1
- Date: Thu, 9 Dec 2021 13:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 19:42:47.689719
- Title: Semantic Search as Extractive Paraphrase Span Detection
- Title(参考訳): 抽出パラフレーズスパン検出のための意味検索
- Authors: Jenna Kanerva, Hanna Kitti, Li-Hsin Chang, Teemu Vahtola, Mathias
Creutz and Filip Ginter
- Abstract要約: 探索タスクをパラフレーズスパン検出としてフレーミングすることで意味探索の問題を解決した。
フィンランドのパラフレーズペア10万個を手作業で抽出したトゥルクパラフレーズコーパスでは,このパラフレーズスパン検出モデルが2つの強力な検索ベースラインを上回っていることが判明した。
本稿では,手動で注釈付けされたパラフレーズリソースが利用できない言語に適した,バックトランスレーションによる人工パラフレーズデータ作成手法を提案する。
- 参考スコア(独自算出の注目度): 0.8137055256093007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we approach the problem of semantic search by framing the
search task as paraphrase span detection, i.e. given a segment of text as a
query phrase, the task is to identify its paraphrase in a given document, the
same modelling setup as typically used in extractive question answering. On the
Turku Paraphrase Corpus of 100,000 manually extracted Finnish paraphrase pairs
including their original document context, we find that our paraphrase span
detection model outperforms two strong retrieval baselines (lexical similarity
and BERT sentence embeddings) by 31.9pp and 22.4pp respectively in terms of
exact match, and by 22.3pp and 12.9pp in terms of token-level F-score. This
demonstrates a strong advantage of modelling the task in terms of span
retrieval, rather than sentence similarity. Additionally, we introduce a method
for creating artificial paraphrase data through back-translation, suitable for
languages where manually annotated paraphrase resources for training the span
detection model are not available.
- Abstract(参考訳): 本稿では,検索タスクをパラフレーズスパン検出,すなわちクエリ句としてテキストのセグメントを与えられた場合,そのタスクは,抽出質問応答において一般的に用いられるのと同じモデル設定である,与えられた文書中のそのパラフレーズを識別することである。
原文書を含むフィンランドのパラフレーズペア10万件のトゥルクパラフレーズコーパスにおいて,このパラフレーズスパン検出モデルでは, 一致率でそれぞれ31.9pp, 22.4pp, トークンレベルのFスコアで22.3pp, 12.9ppの2つの強い検索ベースライン(語彙的類似性およびBERT文の埋め込み)より優れていた。
これは文の類似性よりもスパン検索の観点でタスクをモデル化するという大きな利点を示している。
さらに,スパン検出モデルをトレーニングするための手動注釈付きパラフレーズリソースが利用できない言語に適した,バックトランスレーションによる人工パラフレーズデータ作成手法を提案する。
関連論文リスト
- Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - SimCKP: Simple Contrastive Learning of Keyphrase Representations [36.88517357720033]
そこで本論文では,(1)文脈認識型フレーズレベルの表現からキーフレーズを抽出する抽出器・ジェネレータと,(2)生成したフレーズのスコアを対応する文書と整列させることで,文書に現れないキーフレーズを生成するリランカと,の2つの段階からなる単純なコントラスト学習フレームワークであるSimCKPを提案する。
論文 参考訳(メタデータ) (2023-10-12T11:11:54Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Applying Transformer-based Text Summarization for Keyphrase Generation [2.28438857884398]
キーフレーズは学術文書の検索と体系化に不可欠である。
本稿では,抽象的なテキスト要約のためのトランスフォーマーモデルについて実験する。
要約モデルはフルマッチのF1スコアとBERTスコアでキーフレーズを生成するのに非常に効果的であることを示す。
また,キーフレーズをターゲットとした順序付け戦略についても検討する。
論文 参考訳(メタデータ) (2022-09-08T13:01:52Z) - Improving Paraphrase Detection with the Adversarial Paraphrasing Task [0.0]
パラフレーズデータセットは現在、単語の重複と構文に基づくパラフレーズの感覚に依存している。
パラフレーズ識別のための新しいデータセット生成法: 逆パラフレーズ処理タスク(APT)について紹介する。
APTは参加者に意味論的に等価(相互に意味的)であるが、語彙的にも構文的にも異なるパラフレーズを生成するよう要求する。
論文 参考訳(メタデータ) (2021-06-14T18:15:20Z) - Keyphrase Extraction with Span-based Feature Representations [13.790461555410747]
キーフレーズは、文書を特徴付ける意味メタデータを提供することができる。
キーフレーズ抽出のための3つのアプローチ: (i) 従来の2段階ランキング法、 (ii) シーケンスラベリング、 (iii) ニューラルネットワークを用いた生成。
本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T09:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。