論文の概要: Corpus-Based Paraphrase Detection Experiments and Review
- arxiv url: http://arxiv.org/abs/2106.00145v1
- Date: Mon, 31 May 2021 23:29:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:37:50.329441
- Title: Corpus-Based Paraphrase Detection Experiments and Review
- Title(参考訳): コーパスに基づくparaphrase検出実験とレビュー
- Authors: Tedo Vrbanec and Ana Mestrovic
- Abstract要約: パラフレーズ検出は、盗作検出、著者帰属、質問応答、テキスト要約など、多くのアプリケーションにとって重要である。
本稿では,多種多様なコーパスベースモデル,特にディープラーニング(DL)モデルの性能概要とパラフレーズ検出の課題について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Paraphrase detection is important for a number of applications, including
plagiarism detection, authorship attribution, question answering, text
summarization, text mining in general, etc. In this paper, we give a
performance overview of various types of corpus-based models, especially deep
learning (DL) models, with the task of paraphrase detection. We report the
results of eight models (LSI, TF-IDF, Word2Vec, Doc2Vec, GloVe, FastText, ELMO,
and USE) evaluated on three different public available corpora: Microsoft
Research Paraphrase Corpus, Clough and Stevenson and Webis Crowd Paraphrase
Corpus 2011. Through a great number of experiments, we decided on the most
appropriate approaches for text pre-processing: hyper-parameters, sub-model
selection-where they exist (e.g., Skipgram vs. CBOW), distance measures, and
semantic similarity/paraphrase detection threshold. Our findings and those of
other researchers who have used deep learning models show that DL models are
very competitive with traditional state-of-the-art approaches and have
potential that should be further developed.
- Abstract(参考訳): パラフレーズ検出は、盗作検出、著者帰属、質問応答、テキスト要約、一般的なテキストマイニングなど、多くのアプリケーションにおいて重要である。
本稿では,様々なコーパスベースモデル,特に深層学習モデル(dlモデル)の性能概要とパラフレーズ検出の課題について述べる。
Microsoft Research Paraphrase Corpus, Clough and Stevenson and Webis Crowd Paraphrase Corpus 2011 の3つの公開コーパスで評価した8つのモデル (LSI, TF-IDF, Word2Vec, Doc2Vec, GloVe, FastText, ELMO, USE) の結果を報告する。
テキストの前処理には,ハイパーパラメータやサブモデル選択(スキップグラム対cbow),距離測定,意味的類似度/パラフレーズ検出しきい値など,多くの実験を行った。
ディープラーニングモデルを使用した他の研究者の発見は、DLモデルは従来の最先端アプローチと非常に競合し、さらに発展する可能性があることを示している。
関連論文リスト
- Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。
提案手法は,開語彙HOI検出の最先端化を実現する。
論文 参考訳(メタデータ) (2024-04-09T10:27:22Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Concept-Guided Chain-of-Thought Prompting for Pairwise Comparison
Scaling of Texts with Large Language Models [3.9940425551415597]
既存のテキストスケーリング手法は、大きなコーパス、短いテキストとの競合、ラベル付きデータを必要とすることが多い。
生成する大規模言語モデルのパターン認識機能を活用したテキストスケーリング手法を開発した。
LLMと実体知識を組み合わせることで、抽象概念の最先端の尺度をいかに作成できるかを実証する。
論文 参考訳(メタデータ) (2023-10-18T15:34:37Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Polling Latent Opinions: A Method for Computational Sociolinguistics
Using Transformer Language Models [4.874780144224057]
我々は,Yelp レビューのより大きなコーパス内で,トランスフォーマー言語モデルの記憶と外挿の能力を用いて,サブグループの言語的振る舞いを学習する。
トレーニングコーパスに特定のキーワードが制限されたり、全く存在しない場合においても、GPTは正しい感情を持つ大量のテキストを正確に生成できることを示す。
論文 参考訳(メタデータ) (2022-04-15T14:33:58Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts [1.6758573326215689]
短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
論文 参考訳(メタデータ) (2019-12-27T12:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。