論文の概要: Artificial Text Boundary Detection with Topological Data Analysis and
Sliding Window Techniques
- arxiv url: http://arxiv.org/abs/2311.08349v1
- Date: Tue, 14 Nov 2023 17:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:58:16.693995
- Title: Artificial Text Boundary Detection with Topological Data Analysis and
Sliding Window Techniques
- Title(参考訳): トポロジカルデータ解析とスライディングウィンドウ技術を用いた人工テキスト境界検出
- Authors: Laida Kushnareva, Tatiana Gaintseva, German Magai, Serguei Barannikov,
Dmitry Abulkhanov, Kristian Kuznetsov, Irina Piontkovskaya, Sergey Nikolenko
- Abstract要約: 我々は,この人工テキスト境界検出問題に対して,様々なアプローチを検討・比較する。
本稿では,RoBERTaモデルの教師付き微調整が,一般に有効であることを示す。
本研究では,凍結言語モデルの埋め込みから抽出した特徴に基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 7.268650032347209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the rapid development of text generation models, people increasingly
often encounter texts that may start out as written by a human but then
continue as machine-generated results of large language models. Detecting the
boundary between human-written and machine-generated parts of such texts is a
very challenging problem that has not received much attention in literature. In
this work, we consider and compare a number of different approaches for this
artificial text boundary detection problem, comparing several predictors over
features of different nature. We show that supervised fine-tuning of the
RoBERTa model works well for this task in general but fails to generalize in
important cross-domain and cross-generator settings, demonstrating a tendency
to overfit to spurious properties of the data. Then, we propose novel
approaches based on features extracted from a frozen language model's
embeddings that are able to outperform both the human accuracy level and
previously considered baselines on the Real or Fake Text benchmark. Moreover,
we adapt perplexity-based approaches for the boundary detection task and
analyze their behaviour. We analyze the robustness of all proposed classifiers
in cross-domain and cross-model settings, discovering important properties of
the data that can negatively influence the performance of artificial text
boundary detection algorithms.
- Abstract(参考訳): テキスト生成モデルの急速な発展により、人々は人間によって書かれたテキストから始まり、大きな言語モデルの機械生成結果として続くテキストに遭遇することが多い。
このような文章の人文と機械生成部分の境界を検出することは、文学ではあまり注目されていない非常に難しい問題である。
本研究では,この人工テキスト境界検出問題に対するいくつかの異なるアプローチを考察し,異なる性質に関するいくつかの予測器を比較した。
ロバータモデルの教師付き微調整は一般にはうまく機能するが、重要なクロスドメイン設定やクロスジェネレータ設定では一般化できず、データのスプリアス特性に過剰に適合する傾向を示す。
そこで本研究では,凍った言語モデルの組込みから抽出した特徴を基礎とした新しい手法を提案する。
さらに,境界検出タスクにパープレキシティに基づくアプローチを適用し,その動作解析を行う。
我々は、クロスドメインおよびクロスモデル設定における全ての分類器のロバスト性を解析し、人工テキスト境界検出アルゴリズムの性能に悪影響を及ぼす可能性のあるデータの重要な特性を発見する。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Navigating the Shadows: Unveiling Effective Disturbances for Modern AI Content Detectors [24.954755569786396]
AIテキスト検出は、人間と機械が生成したコンテンツを区別するために現れた。
近年の研究では、これらの検出システムは、しばしば頑丈さを欠き、摂動テキストを効果的に区別する難しさを欠いていることが示されている。
我々の研究は、非公式な文章と専門的な文章の両方で現実世界のシナリオをシミュレートし、現在の検出器のアウト・オブ・ボックスのパフォーマンスを探求する。
論文 参考訳(メタデータ) (2024-06-13T08:37:01Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。