論文の概要: Paraphrase Identification with Deep Learning: A Review of Datasets and
Methods
- arxiv url: http://arxiv.org/abs/2212.06933v1
- Date: Tue, 13 Dec 2022 23:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:28:25.564180
- Title: Paraphrase Identification with Deep Learning: A Review of Datasets and
Methods
- Title(参考訳): ディープラーニングを用いたparaphrase識別:データセットと手法のレビュー
- Authors: Chao Zhou (Department of Computer Science, Syracuse University), Cheng
Qiu (School of Arts and Science, Vanderbilt University), Daniel E. Acuna
(Department of Computer Science, University of Colorado at Boulder)
- Abstract要約: GPT-3やChatGPTのようなテキスト生成ツールは、様々な形式のメディアの信頼性に深刻な脅威をもたらす可能性がある。
このタイプの盗作行為を検出することは、これらの方法が訓練されているデータセットの異なる性質のため、依然として困難である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of AI technology has made text generation tools like
GPT-3 and ChatGPT increasingly accessible, scalable, and effective. This can
pose serious threat to the credibility of various forms of media if these
technologies are used for plagiarism, including scientific literature and news
sources. Despite the development of automated methods for paraphrase
identification, detecting this type of plagiarism remains a challenge due to
the disparate nature of the datasets on which these methods are trained. In
this study, we review traditional and current approaches to paraphrase
identification and propose a refined typology of paraphrases. We also
investigate how this typology is represented in popular datasets and how
under-representation of certain types of paraphrases impacts detection
capabilities. Finally, we outline new directions for future research and
datasets in the pursuit of more effective paraphrase detection using AI.
- Abstract(参考訳): AI技術の急速な進歩により、GPT-3やChatGPTといったテキスト生成ツールは、ますますアクセスしやすく、スケーラブルで、効果的になっている。
これは、これらの技術が科学文献やニュースソースを含む盗作に使用される場合、様々なメディアの信頼性に深刻な脅威をもたらす可能性がある。
パラフレーズ同定のための自動手法の開発にもかかわらず、これらの手法が訓練されたデータセットの異なる性質のため、この種の盗作を検知することは依然として困難である。
本研究では,従来の言い回しの同定手法を概観し,言い換えの類型化を提案する。
また、この型が一般的なデータセットでどのように表現され、ある種のパラフレーズが検出能力に与える影響についても検討する。
最後に,aiを用いたより効果的なパラフレーズ検出を追求するために,今後の研究とデータセットの方向性について概説する。
関連論文リスト
- Analysis of Plan-based Retrieval for Grounded Text Generation [78.89478272104739]
幻覚は、言語モデルがそのパラメトリック知識の外で生成タスクが与えられるときに起こる。
この制限に対処するための一般的な戦略は、言語モデルに検索メカニズムを注入することである。
我々は,幻覚の頻度をさらに減少させるために,探索のガイドとして計画をどのように利用できるかを分析する。
論文 参考訳(メタデータ) (2024-08-20T02:19:35Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Paraphrase Types for Generation and Detection [7.800428507692341]
これらのタスクをパラフレーズ型生成とパラフレーズ型検出と呼ぶ。
以上の結果から,従来の手法は二項分類のシナリオではうまく機能するが,微粒なパラフレーズ型の含みは大きな課題となることが示唆された。
我々は、パラフレーズ型が将来、パラフレーズモデルの開発とタスクの解決のための新しいパラダイムを解き放つことができると考えている。
論文 参考訳(メタデータ) (2023-10-23T12:32:41Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - SynSciPass: detecting appropriate uses of scientific text generation [0.0]
我々は,機械生成テキストを検出するためのニュアンスなアプローチを提供する,データセット開発のためのフレームワークを開発する。
SynSciPass上でDAGPap22でよく機能する同じモデルをトレーニングすることにより、ドメインシフトに対してより堅牢なモデルであるだけでなく、機械生成テキストに使用されるタイプの技術を明らかにすることが可能であることを示す。
論文 参考訳(メタデータ) (2022-09-07T13:16:40Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - A Survey on Retrieval-Augmented Text Generation [53.04991859796971]
Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。
まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
論文 参考訳(メタデータ) (2022-02-02T16:18:41Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - Are Neural Language Models Good Plagiarists? A Benchmark for Neural
Paraphrase Detection [5.847824494580938]
トランスフォーマーアーキテクチャに基づく最近の言語モデルを用いたパラフレーズ記事からなるベンチマークを提案する。
我々の貢献は、パラフレーズ検出システムに関する将来的な研究を後押しし、大量の原文およびパラフレーズ文書のコレクションを提供する。
論文 参考訳(メタデータ) (2021-03-23T11:01:35Z) - MICE: Mining Idioms with Contextual Embeddings [0.0]
MICEatic式は自然言語処理アプリケーションでは問題となることがある。
我々は,その目的のためにコンテキスト埋め込みを利用するアプローチを提案する。
両埋め込みを用いたディープニューラルネットワークは,既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-13T08:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。