論文の概要: Explainability-Based Token Replacement on LLM-Generated Text
- arxiv url: http://arxiv.org/abs/2506.04050v1
- Date: Wed, 04 Jun 2025 15:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.410148
- Title: Explainability-Based Token Replacement on LLM-Generated Text
- Title(参考訳): LLMテキストによる説明可能性に基づくトークン置換
- Authors: Hadi Mohammadi, Anastasia Giachanou, Daniel L. Oberski, Ayoub Bagheri,
- Abstract要約: 我々は、AI生成テキスト(AIGT)の検出可能性を低減するために、説明可能なAI(XAI)手法をどのように利用できるかを検討する。
そこで本稿では,これらのトークンを修正するための4つの説明可能性に基づくトークン置換戦略を提案する。
以上の結果から,XAI手法によりAIGTの検出が困難になる可能性が示唆された。
- 参考スコア(独自算出の注目度): 2.494550479408289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models, especially large language models (LLMs), have shown remarkable progress in producing text that appears human-like. However, they often exhibit patterns that make their output easier to detect than text written by humans. In this paper, we investigate how explainable AI (XAI) methods can be used to reduce the detectability of AI-generated text (AIGT) while also introducing a robust ensemble-based detection approach. We begin by training an ensemble classifier to distinguish AIGT from human-written text, then apply SHAP and LIME to identify tokens that most strongly influence its predictions. We propose four explainability-based token replacement strategies to modify these influential tokens. Our findings show that these token replacement approaches can significantly diminish a single classifier's ability to detect AIGT. However, our ensemble classifier maintains strong performance across multiple languages and domains, showing that a multi-model approach can mitigate the impact of token-level manipulations. These results show that XAI methods can make AIGT harder to detect by focusing on the most influential tokens. At the same time, they highlight the need for robust, ensemble-based detection strategies that can adapt to evolving approaches for hiding AIGT.
- Abstract(参考訳): 生成モデル、特に大きな言語モデル(LLM)は、人間のように見えるテキストの生成において顕著な進歩を見せている。
しかし、人間によって書かれたテキストよりも出力を検知しやすくするパターンがしばしば現れる。
本稿では,AI生成テキスト(AIGT)の検出性を低減しつつ,頑健なアンサンブルに基づく検出手法を導入するために,説明可能なAI(XAI)手法をどのように利用できるかを検討する。
まず、AIGTと人文テキストを区別するためにアンサンブル分類器を訓練し、SHAPとLIMEを適用してその予測に最も強く影響を及ぼすトークンを識別する。
そこで本稿では,これらのトークンを修正するための4つの説明可能性に基づくトークン置換戦略を提案する。
以上の結果から,これらのトークン置換アプローチは,AIGTを検出する単一分類器の能力を著しく低下させる可能性が示唆された。
しかし,アンサンブル分類器は複数の言語やドメインにまたがって高い性能を維持しており,トークンレベルの操作の影響を軽減できることを示す。
これらの結果から,最も影響力のあるトークンに着目してAIGTの検出が困難になることが示された。
同時に彼らは、AIGTを隠すための進化中のアプローチに適応できる堅牢でアンサンブルベースの検出戦略の必要性を強調している。
関連論文リスト
- AuthorMist: Evading AI Text Detectors with Reinforcement Learning [4.806579822134391]
AuthorMistは、AI生成したテキストを人間ライクな文章に変換する、新しい強化学習ベースのシステムだ。
AuthorMistは,本来の意味を保ちながら,AI生成テキストの検出性を効果的に低減することを示す。
論文 参考訳(メタデータ) (2025-03-10T12:41:05Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [60.09665704993751]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。
我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z) - DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning [24.99797253885887]
このタスクを達成するための鍵は、異なる著者のスタイルを区別することにある、と我々は主張する。
DeTeCtiveは,マルチタスクの補助的,マルチレベルのコントラスト学習フレームワークである。
我々の手法はテキストエンコーダと互換性がある。
論文 参考訳(メタデータ) (2024-10-28T12:34:49Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection [6.27025292177391]
ToBlendはトークンレベルのアンサンブルテキスト生成手法であり、現在のAIコンテンツ検出アプローチの堅牢性に挑戦する。
ToBlendは、主要なAIコンテンツ検出手法の性能を著しく低下させる。
論文 参考訳(メタデータ) (2024-02-17T02:25:57Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。