論文の概要: Paraphrase Identification with Deep Learning: A Review of Datasets and Methods
- arxiv url: http://arxiv.org/abs/2212.06933v2
- Date: Fri, 04 Oct 2024 18:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:42:11.219507
- Title: Paraphrase Identification with Deep Learning: A Review of Datasets and Methods
- Title(参考訳): ディープラーニングを用いたパラフレーズ識別:データセットと手法のレビュー
- Authors: Chao Zhou, Cheng Qiu, Daniel E. Acuna,
- Abstract要約: 一般的なデータセットにおける特定のパラフレーズ型の表現不足が,盗作を検知する能力にどのように影響するかを検討する。
パラフレーズのための新しいタイポロジーを導入し、検証する。
我々は、AIに基づくパラフレーズ検出を強化するために、将来の研究とデータセット開発のための新しい方向を提案する。
- 参考スコア(独自算出の注目度): 1.5649835648753185
- License:
- Abstract: The rapid progress of Natural Language Processing (NLP) technologies has led to the widespread availability and effectiveness of text generation tools such as ChatGPT and Claude. While highly useful, these technologies also pose significant risks to the credibility of various media forms if they are employed for paraphrased plagiarism -- one of the most subtle forms of content misuse in scientific literature and general text media. Although automated methods for paraphrase identification have been developed, detecting this type of plagiarism remains challenging due to the inconsistent nature of the datasets used to train these methods. In this article, we examine traditional and contemporary approaches to paraphrase identification, investigating how the under-representation of certain paraphrase types in popular datasets, including those used to train Large Language Models (LLMs), affects the ability to detect plagiarism. We introduce and validate a new refined typology for paraphrases (ReParaphrased, REfined PARAPHRASE typology definitions) to better understand the disparities in paraphrase type representation. Lastly, we propose new directions for future research and dataset development to enhance AI-based paraphrase detection.
- Abstract(参考訳): 自然言語処理(NLP)技術の急速な進歩により、ChatGPTやClaudeといったテキスト生成ツールが広く利用できるようになった。
非常に有用であるが、これらの技術は、科学文献や一般的なテキストメディアにおいて最も微妙な内容の誤用の1つであるパラフラスド・プラギアリズム(英語版)に使用される場合、様々なメディア形式の信頼性に重大なリスクをもたらす。
パラフレーズ同定のための自動手法が開発されているが、これらの手法を訓練するために使用されるデータセットの不整合性のため、この種のプラギアリズムを検出することは依然として困難である。
本稿では,言語モデル (LLM) の訓練に使用されるものを含む,一般的なデータセットにおいて,特定の言い換え型を下記表現する手法が,盗作行為を検出する能力にどのように影響するかを,従来の言い換え型同定のアプローチと現代的アプローチについて検討する。
パラフレーズ型表現の相違をよりよく理解するために, パラフレーズ型表現(ReParaphrased, Refined PARAPHRASE typology definitions)の新しい改良型タイポロジーを導入, 検証した。
最後に、AIに基づくパラフレーズ検出を強化するために、将来の研究とデータセット開発のための新しい方向性を提案する。
関連論文リスト
- Deepfake tweets automatic detection [0.0]
本研究は,真のテキストとAI生成テキストを区別するために,高度な自然言語処理(NLP)技術を用いる。
AIが生成する誤情報を検出するための信頼性の高い方法を開発することで、この研究はより信頼性の高いオンライン情報環境に寄与する。
論文 参考訳(メタデータ) (2024-06-24T09:55:31Z) - Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods [13.14749943120523]
テキストが人工知能(AI)によって作成されたかどうかを知ることは、その信頼性を決定する上で重要である。
AIGT検出に対する最先端のアプローチには、透かし、統計学的およびスタイリスティック分析、機械学習分類などがある。
AIGTテキストがどのようなシナリオで「検出可能」であるかを判断するために、結合する健全な要因についての洞察を提供することを目指している。
論文 参考訳(メタデータ) (2024-06-21T18:31:49Z) - Who Writes the Review, Human or AI? [0.36498648388765503]
本研究では,AIによる書評と人間による書評を正確に区別する手法を提案する。
提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別する。
実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
論文 参考訳(メタデータ) (2024-05-30T17:38:44Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Watermarking Conditional Text Generation for AI Detection: Unveiling
Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。
実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-25T20:24:22Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - A survey on text generation using generative adversarial networks [0.0]
本研究は, ジェネレーティブ・アドバイサル・ネットワークを用いた最近の研究とテキスト生成の進展について, 徹底的なレビューを行う。
テキスト生成における敵対的学習の使用は、いわゆる「自然な」言語を生成する代替手段を提供するので、有望である。
論文 参考訳(メタデータ) (2022-12-20T17:54:08Z) - SynSciPass: detecting appropriate uses of scientific text generation [0.0]
我々は,機械生成テキストを検出するためのニュアンスなアプローチを提供する,データセット開発のためのフレームワークを開発する。
SynSciPass上でDAGPap22でよく機能する同じモデルをトレーニングすることにより、ドメインシフトに対してより堅牢なモデルであるだけでなく、機械生成テキストに使用されるタイプの技術を明らかにすることが可能であることを示す。
論文 参考訳(メタデータ) (2022-09-07T13:16:40Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。