論文の概要: Learn-to-Distance: Distance Learning for Detecting LLM-Generated Text
- arxiv url: http://arxiv.org/abs/2601.21895v1
- Date: Thu, 29 Jan 2026 15:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.960047
- Title: Learn-to-Distance: Distance Learning for Detecting LLM-Generated Text
- Title(参考訳): 学習と距離: LLM生成テキスト検出のための遠隔学習
- Authors: Hongyi Zhou, Jin Zhu, Erhan Xu, Kai Ye, Ying Yang, Chengchun Shi,
- Abstract要約: 現代の大規模言語モデル(LLM)は、学習、作業、コミュニケーションの方法を変えました。
高度に人間的なテキストを生成する能力は、誤情報や学術的整合性に対する深刻な懸念を提起する。
本稿では,オリジナルテキストと書き直しテキスト間の距離を適応的に学習する,書き直しに基づく新しい検出アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.73070476746517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models (LLMs) such as GPT, Claude, and Gemini have transformed the way we learn, work, and communicate. Yet, their ability to produce highly human-like text raises serious concerns about misinformation and academic integrity, making it an urgent need for reliable algorithms to detect LLM-generated content. In this paper, we start by presenting a geometric approach to demystify rewrite-based detection algorithms, revealing their underlying rationale and demonstrating their generalization ability. Building on this insight, we introduce a novel rewrite-based detection algorithm that adaptively learns the distance between the original and rewritten text. Theoretically, we demonstrate that employing an adaptively learned distance function is more effective for detection than using a fixed distance. Empirically, we conduct extensive experiments with over 100 settings, and find that our approach demonstrates superior performance over baseline algorithms in the majority of scenarios. In particular, it achieves relative improvements from 57.8\% to 80.6\% over the strongest baseline across different target LLMs (e.g., GPT, Claude, and Gemini).
- Abstract(参考訳): GPT、Claude、Geminiといった現代の大規模言語モデル(LLM)は、学習、作業、コミュニケーションの方法を変えました。
しかし、高い人間的なテキストを生成する能力は、誤情報や学術的整合性に深刻な懸念を生じさせ、LCM生成コンテンツを検出するための信頼性の高いアルゴリズムを緊急に必要とします。
本稿では,書き直しに基づく検出アルゴリズムをデミスティフィケートする幾何学的手法を提案し,その基礎となる根拠を明らかにし,一般化能力を実証することから始める。
この知見に基づいて,原文と書き直しテキスト間の距離を適応的に学習する,書き直しに基づく新しい検出アルゴリズムを提案する。
理論的には、適応的に学習された距離関数を用いることは、固定距離よりも検出に有効であることを示す。
経験的に、100以上の設定で広範な実験を行い、本手法は、ほとんどのシナリオにおいて、ベースラインアルゴリズムよりも優れた性能を示す。
特に、異なるLLM(例えば、GPT、Claude、Gemini)で最強のベースラインに対して57.8\%から80.6\%までの相対的な改善を実現している。
関連論文リスト
- DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - LECTOR: LLM-Enhanced Concept-based Test-Oriented Repetition for Adaptive Spaced Learning [1.8130068086063336]
LECTORは、テスト指向学習シナリオのための新しい適応スケジューリングアルゴリズムである。
語彙学習における意味的混乱の課題に対処する。
LECTORは、最高のベースラインアルゴリズムでは88.4%に比べて90.2%の成功率を達成した。
論文 参考訳(メタデータ) (2025-08-05T09:53:26Z) - DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
人気のある大規模言語モデル(LLM)を使用して、実世界のアプリケーションとの整合性を向上するデータを生成しました。
我々は,書式,モデルタイプ,攻撃方法,テキストの長さ,および実世界の人間の筆記因子が,さまざまな種類の検知器に与える影響について分析した。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - ConvNLP: Image-based AI Text Detection [1.4419517737536705]
本稿では,単語埋め込みの視覚的表現を用いたAI生成テキストの検出手法を提案する。
我々は、ZigZag ResNetと呼ばれる新しい畳み込みニューラルネットワークと、ZigZag Schedulerと呼ばれる一般化を改善するスケジューラを定式化した。
我々の最良のモデルは、AI生成テキストを印象的な平均検出率(ドメイン間およびドメイン内テストデータ以上)88.35%で検出する。
論文 参考訳(メタデータ) (2024-07-09T20:44:40Z) - Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to
Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。
自然言語処理(NLP)技術を用いた新しい手法を提案する。
与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文 参考訳(メタデータ) (2023-06-13T20:34:55Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。