論文の概要: Paraphrase Identification with Deep Learning: A Review of Datasets and Methods
- arxiv url: http://arxiv.org/abs/2212.06933v2
- Date: Fri, 04 Oct 2024 18:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:42:11.219507
- Title: Paraphrase Identification with Deep Learning: A Review of Datasets and Methods
- Title(参考訳): ディープラーニングを用いたパラフレーズ識別:データセットと手法のレビュー
- Authors: Chao Zhou, Cheng Qiu, Daniel E. Acuna,
- Abstract要約: 一般的なデータセットにおける特定のパラフレーズ型の表現不足が,盗作を検知する能力にどのように影響するかを検討する。
パラフレーズのための新しいタイポロジーを導入し、検証する。
我々は、AIに基づくパラフレーズ検出を強化するために、将来の研究とデータセット開発のための新しい方向を提案する。
- 参考スコア(独自算出の注目度): 1.5649835648753185
- License:
- Abstract: The rapid progress of Natural Language Processing (NLP) technologies has led to the widespread availability and effectiveness of text generation tools such as ChatGPT and Claude. While highly useful, these technologies also pose significant risks to the credibility of various media forms if they are employed for paraphrased plagiarism -- one of the most subtle forms of content misuse in scientific literature and general text media. Although automated methods for paraphrase identification have been developed, detecting this type of plagiarism remains challenging due to the inconsistent nature of the datasets used to train these methods. In this article, we examine traditional and contemporary approaches to paraphrase identification, investigating how the under-representation of certain paraphrase types in popular datasets, including those used to train Large Language Models (LLMs), affects the ability to detect plagiarism. We introduce and validate a new refined typology for paraphrases (ReParaphrased, REfined PARAPHRASE typology definitions) to better understand the disparities in paraphrase type representation. Lastly, we propose new directions for future research and dataset development to enhance AI-based paraphrase detection.
- Abstract(参考訳): 自然言語処理(NLP)技術の急速な進歩により、ChatGPTやClaudeといったテキスト生成ツールが広く利用できるようになった。
非常に有用であるが、これらの技術は、科学文献や一般的なテキストメディアにおいて最も微妙な内容の誤用の1つであるパラフラスド・プラギアリズム(英語版)に使用される場合、様々なメディア形式の信頼性に重大なリスクをもたらす。
パラフレーズ同定のための自動手法が開発されているが、これらの手法を訓練するために使用されるデータセットの不整合性のため、この種のプラギアリズムを検出することは依然として困難である。
本稿では,言語モデル (LLM) の訓練に使用されるものを含む,一般的なデータセットにおいて,特定の言い換え型を下記表現する手法が,盗作行為を検出する能力にどのように影響するかを,従来の言い換え型同定のアプローチと現代的アプローチについて検討する。
パラフレーズ型表現の相違をよりよく理解するために, パラフレーズ型表現(ReParaphrased, Refined PARAPHRASE typology definitions)の新しい改良型タイポロジーを導入, 検証した。
最後に、AIに基づくパラフレーズ検出を強化するために、将来の研究とデータセット開発のための新しい方向性を提案する。
関連論文リスト
- Analysis of Plan-based Retrieval for Grounded Text Generation [78.89478272104739]
幻覚は、言語モデルがそのパラメトリック知識の外で生成タスクが与えられるときに起こる。
この制限に対処するための一般的な戦略は、言語モデルに検索メカニズムを注入することである。
我々は,幻覚の頻度をさらに減少させるために,探索のガイドとして計画をどのように利用できるかを分析する。
論文 参考訳(メタデータ) (2024-08-20T02:19:35Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Paraphrase Types for Generation and Detection [7.800428507692341]
これらのタスクをパラフレーズ型生成とパラフレーズ型検出と呼ぶ。
以上の結果から,従来の手法は二項分類のシナリオではうまく機能するが,微粒なパラフレーズ型の含みは大きな課題となることが示唆された。
我々は、パラフレーズ型が将来、パラフレーズモデルの開発とタスクの解決のための新しいパラダイムを解き放つことができると考えている。
論文 参考訳(メタデータ) (2023-10-23T12:32:41Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - SynSciPass: detecting appropriate uses of scientific text generation [0.0]
我々は,機械生成テキストを検出するためのニュアンスなアプローチを提供する,データセット開発のためのフレームワークを開発する。
SynSciPass上でDAGPap22でよく機能する同じモデルをトレーニングすることにより、ドメインシフトに対してより堅牢なモデルであるだけでなく、機械生成テキストに使用されるタイプの技術を明らかにすることが可能であることを示す。
論文 参考訳(メタデータ) (2022-09-07T13:16:40Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - A Survey on Retrieval-Augmented Text Generation [53.04991859796971]
Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。
まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
論文 参考訳(メタデータ) (2022-02-02T16:18:41Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - Are Neural Language Models Good Plagiarists? A Benchmark for Neural
Paraphrase Detection [5.847824494580938]
トランスフォーマーアーキテクチャに基づく最近の言語モデルを用いたパラフレーズ記事からなるベンチマークを提案する。
我々の貢献は、パラフレーズ検出システムに関する将来的な研究を後押しし、大量の原文およびパラフレーズ文書のコレクションを提供する。
論文 参考訳(メタデータ) (2021-03-23T11:01:35Z) - MICE: Mining Idioms with Contextual Embeddings [0.0]
MICEatic式は自然言語処理アプリケーションでは問題となることがある。
我々は,その目的のためにコンテキスト埋め込みを利用するアプローチを提案する。
両埋め込みを用いたディープニューラルネットワークは,既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-13T08:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。