論文の概要: A Ship of Theseus: Curious Cases of Paraphrasing in LLM-Generated Texts
- arxiv url: http://arxiv.org/abs/2311.08374v2
- Date: Thu, 6 Jun 2024 23:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 20:46:33.548009
- Title: A Ship of Theseus: Curious Cases of Paraphrasing in LLM-Generated Texts
- Title(参考訳): テセウスの船:LLMテキストにおける言い回しの例
- Authors: Nafis Irtiza Tripto, Saranya Venkatraman, Dominik Macko, Robert Moro, Ivan Srba, Adaku Uchendu, Thai Le, Dongwon Lee,
- Abstract要約: 私たちの研究は、興味深い疑問を浮き彫りにしている: テキストは、多くのパラフレーズを実行したときに、オリジナルの著者を保っているか?
計算手法を用いることで,テキスト分類モデルにおける性能低下が,各パラフレーズが原作者のスタイルから逸脱する程度と密接に関連していることが判明した。
- 参考スコア(独自算出の注目度): 11.430810978707173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of text manipulation and linguistic transformation, the question of authorship has been a subject of fascination and philosophical inquiry. Much like the Ship of Theseus paradox, which ponders whether a ship remains the same when each of its original planks is replaced, our research delves into an intriguing question: Does a text retain its original authorship when it undergoes numerous paraphrasing iterations? Specifically, since Large Language Models (LLMs) have demonstrated remarkable proficiency in both the generation of original content and the modification of human-authored texts, a pivotal question emerges concerning the determination of authorship in instances where LLMs or similar paraphrasing tools are employed to rephrase the text--i.e., whether authorship should be attributed to the original human author or the AI-powered tool. Therefore, we embark on a philosophical voyage through the seas of language and authorship to unravel this intricate puzzle. Using a computational approach, we discover that the diminishing performance in text classification models, with each successive paraphrasing iteration, is closely associated with the extent of deviation from the original author's style, thus provoking a reconsideration of the current notion of authorship.
- Abstract(参考訳): テキスト操作と言語変換の領域では、著者の疑問は興味深く、哲学的な探求の対象となっている。
テセウスのパラドックスの船のように、船が元の板を交換した時に同じままであるかどうかを考えると、我々の研究は興味深い疑問に突き当たっている。
特に、Large Language Models (LLMs) は、オリジナルコンテンツの生成と人間によるテキストの修正の両方において、顕著な熟練性を示しているため、LLMや類似のパラフレーズツールがテキストの言い換えに使用される場合において、著者の決定に関して重要な疑問が浮かび上がっている。
そこで我々は、この複雑なパズルを解き明かすために、言語と著者の海を哲学的に旅する。
計算手法を用いて,テキスト分類モデルにおいて,逐次的なパラフレーズ反復による性能低下は,原作者のスタイルから逸脱する程度と密接に関連していることが明らかとなり,著者の現在の概念の再考がもたらされる。
関連論文リスト
- Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Tracing the Genealogies of Ideas with Large Language Model Embeddings [0.0]
大規模コーパスにまたがる知的影響を検出する新しい手法を提案する。
この手法を用いて、19世紀の約40万冊のノンフィクション書籍と学術出版物のコーパスから文章をベクトル化する。
論文 参考訳(メタデータ) (2024-01-13T18:42:27Z) - Towards Effective Paraphrasing for Information Disguise [13.356934367660811]
著者の執筆したオンラインコミュニケーションがセンシティブなドメインに関連する場合,ID(Information Disguise)の研究が重要となる。
著者の投稿から与えられた文に対して,パラフレージングの方向に文の反復摂動を行う枠組みを提案する。
本研究は, パープレキシティスコアを用いたフレーズ重要度ランキングの新たな手法を導入し, ビームサーチによる複数レベルのフレーズ置換を行う。
論文 参考訳(メタデータ) (2023-11-08T21:12:59Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Can You Fool AI by Doing a 180? $\unicode{x2013}$ A Case Study on
Authorship Analysis of Texts by Arata Osada [2.6954666679827137]
本稿では,倫理学と著者分析の分野をカバーする2つの疑問に答える試みである。
まず,著者識別システムが,作品の作者への正しい属性付けが可能かどうかを,長年にわたって大きな心理的移行を経た上で確認することに興味を抱いた。
第2に、著者の倫理的価値観の進化の観点から、著者の帰属体系が単一著者の発見に困難に直面する場合、それが何を意味するのかを確認した。
論文 参考訳(メタデータ) (2022-07-19T05:43:49Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z) - InvBERT: Text Reconstruction from Contextualized Embeddings used for
Derived Text Formats of Literary Works [1.6058099298620423]
Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。
著作権の制限により、関連するデジタル化された文学作品の入手は制限されている。
BERTを逆転しようとする試みは、エンコーダのパーツをコンテキスト化された埋め込みと共に公開することが重要であることを示唆している。
論文 参考訳(メタデータ) (2021-09-21T11:35:41Z) - Tortured phrases: A dubious writing style emerging in science. Evidence
of critical issues affecting established journals [69.76097138157816]
確率的テキストジェネレータは10年以上にわたって偽の科学論文の作成に使われてきた。
複雑なAIを利用した生成技術は、人間のものと区別できないテキストを生成する。
一部のウェブサイトはテキストを無料で書き直し、拷問されたフレーズでいっぱいのgobbledegookを生成する。
論文 参考訳(メタデータ) (2021-07-12T20:47:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。