Fugu-MT 論文翻訳(概要): Paraphrase Identification with Deep Learning: A Review of Datasets and Methods

論文の概要: Paraphrase Identification with Deep Learning: A Review of Datasets and Methods

arxiv url: http://arxiv.org/abs/2212.06933v2
Date: Fri, 04 Oct 2024 18:53:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 22:51:47.316844
Title: Paraphrase Identification with Deep Learning: A Review of Datasets and Methods
Title（参考訳）: ディープラーニングを用いたパラフレーズ識別:データセットと手法のレビュー
Authors: Chao Zhou, Cheng Qiu, Daniel E. Acuna,
Abstract要約: 一般的なデータセットにおける特定のパラフレーズ型の表現不足が,盗作を検知する能力にどのように影響するかを検討する。パラフレーズのための新しいタイポロジーを導入し、検証する。我々は、AIに基づくパラフレーズ検出を強化するために、将来の研究とデータセット開発のための新しい方向を提案する。
参考スコア（独自算出の注目度）: 1.5649835648753185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid progress of Natural Language Processing (NLP) technologies has led to the widespread availability and effectiveness of text generation tools such as ChatGPT and Claude. While highly useful, these technologies also pose significant risks to the credibility of various media forms if they are employed for paraphrased plagiarism -- one of the most subtle forms of content misuse in scientific literature and general text media. Although automated methods for paraphrase identification have been developed, detecting this type of plagiarism remains challenging due to the inconsistent nature of the datasets used to train these methods. In this article, we examine traditional and contemporary approaches to paraphrase identification, investigating how the under-representation of certain paraphrase types in popular datasets, including those used to train Large Language Models (LLMs), affects the ability to detect plagiarism. We introduce and validate a new refined typology for paraphrases (ReParaphrased, REfined PARAPHRASE typology definitions) to better understand the disparities in paraphrase type representation. Lastly, we propose new directions for future research and dataset development to enhance AI-based paraphrase detection.
Abstract（参考訳）: 自然言語処理(NLP)技術の急速な進歩により、ChatGPTやClaudeといったテキスト生成ツールが広く利用できるようになった。非常に有用であるが、これらの技術は、科学文献や一般的なテキストメディアにおいて最も微妙な内容の誤用の1つであるパラフラスド・プラギアリズム(英語版)に使用される場合、様々なメディア形式の信頼性に重大なリスクをもたらす。パラフレーズ同定のための自動手法が開発されているが、これらの手法を訓練するために使用されるデータセットの不整合性のため、この種のプラギアリズムを検出することは依然として困難である。本稿では,言語モデル (LLM) の訓練に使用されるものを含む,一般的なデータセットにおいて,特定の言い換え型を下記表現する手法が,盗作行為を検出する能力にどのように影響するかを,従来の言い換え型同定のアプローチと現代的アプローチについて検討する。パラフレーズ型表現の相違をよりよく理解するために, パラフレーズ型表現(ReParaphrased, Refined PARAPHRASE typology definitions)の新しい改良型タイポロジーを導入, 検証した。最後に、AIに基づくパラフレーズ検出を強化するために、将来の研究とデータセット開発のための新しい方向性を提案する。

関連論文リスト

Enhancing Plagiarism Detection in Marathi with a Weighted Ensemble of TF-IDF and BERT Embeddings for Low-Resource Language Processing [0.0]
低リソース言語に適した堅牢な盗作検知システムを設計することが重要である。本稿では,マラタイ文字の盗作検出精度を高める手法を提案する。
論文参考訳（メタデータ） (2025-01-09T14:14:18Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Analysis of Plan-based Retrieval for Grounded Text Generation [78.89478272104739]
幻覚は、言語モデルがそのパラメトリック知識の外で生成タスクが与えられるときに起こる。この制限に対処するための一般的な戦略は、言語モデルに検索メカニズムを注入することである。我々は,幻覚の頻度をさらに減少させるために,探索のガイドとして計画をどのように利用できるかを分析する。
論文参考訳（メタデータ） (2024-08-20T02:19:35Z)
Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。 PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文参考訳（メタデータ） (2024-05-21T11:22:27Z)
Paraphrase Types for Generation and Detection [7.800428507692341]
これらのタスクをパラフレーズ型生成とパラフレーズ型検出と呼ぶ。以上の結果から,従来の手法は二項分類のシナリオではうまく機能するが,微粒なパラフレーズ型の含みは大きな課題となることが示唆された。我々は、パラフレーズ型が将来、パラフレーズモデルの開発とタスクの解決のための新しいパラダイムを解き放つことができると考えている。
論文参考訳（メタデータ） (2023-10-23T12:32:41Z)
Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。 DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文参考訳（メタデータ） (2023-03-23T16:29:27Z)
SynSciPass: detecting appropriate uses of scientific text generation [0.0]
我々は,機械生成テキストを検出するためのニュアンスなアプローチを提供する,データセット開発のためのフレームワークを開発する。 SynSciPass上でDAGPap22でよく機能する同じモデルをトレーニングすることにより、ドメインシフトに対してより堅牢なモデルであるだけでなく、機械生成テキストに使用されるタイプの技術を明らかにすることが可能であることを示す。
論文参考訳（メタデータ） (2022-09-07T13:16:40Z)
Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文参考訳（メタデータ） (2022-03-15T17:48:04Z)
A Survey on Retrieval-Augmented Text Generation [53.04991859796971]
Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
論文参考訳（メタデータ） (2022-02-02T16:18:41Z)
Data Expansion using Back Translation and Paraphrasing for Hate Speech Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。 AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文参考訳（メタデータ） (2021-05-25T09:52:42Z)
SmartPatch: Improving Handwritten Word Imitation with Patch Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文参考訳（メタデータ） (2021-05-21T18:34:21Z)
Are Neural Language Models Good Plagiarists? A Benchmark for Neural Paraphrase Detection [5.847824494580938]
トランスフォーマーアーキテクチャに基づく最近の言語モデルを用いたパラフレーズ記事からなるベンチマークを提案する。我々の貢献は、パラフレーズ検出システムに関する将来的な研究を後押しし、大量の原文およびパラフレーズ文書のコレクションを提供する。
論文参考訳（メタデータ） (2021-03-23T11:01:35Z)
MICE: Mining Idioms with Contextual Embeddings [0.0]
MICEatic式は自然言語処理アプリケーションでは問題となることがある。我々は,その目的のためにコンテキスト埋め込みを利用するアプローチを提案する。両埋め込みを用いたディープニューラルネットワークは,既存のアプローチよりも優れた性能を示す。
論文参考訳（メタデータ） (2020-08-13T08:56:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。