論文の概要: LLMTrace: A Corpus for Classification and Fine-Grained Localization of AI-Written Text
- arxiv url: http://arxiv.org/abs/2509.21269v1
- Date: Thu, 25 Sep 2025 14:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.008234
- Title: LLMTrace: A Corpus for Classification and Fine-Grained Localization of AI-Written Text
- Title(参考訳): LLMTrace:AIテキストの分類と微粒化のためのコーパス
- Authors: Irina Tolstykh, Aleksandra Tsybina, Sergey Yakubson, Maksim Kuprashevich,
- Abstract要約: LLMTraceは、AIによるテキスト検出のための、大規模なバイリンガル(英語とロシア語)コーパスである。
私たちのデータセットは、従来のフルテキストバイナリ分類(人間対AI)と、AI生成間隔検出の新しいタスクの2つの重要なタスクをサポートするように設計されています。
LLMTraceは、よりニュアンスで実用的なAI検出モデルの次世代をトレーニングし、評価するための重要なリソースになると考えています。
- 参考スコア(独自算出の注目度): 39.58172554437255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of human-like text from Large Language Models (LLMs) necessitates the development of robust detection systems. However, progress is limited by a critical lack of suitable training data; existing datasets are often generated with outdated models, are predominantly in English, and fail to address the increasingly common scenario of mixed human-AI authorship. Crucially, while some datasets address mixed authorship, none provide the character-level annotations required for the precise localization of AI-generated segments within a text. To address these gaps, we introduce LLMTrace, a new large-scale, bilingual (English and Russian) corpus for AI-generated text detection. Constructed using a diverse range of modern proprietary and open-source LLMs, our dataset is designed to support two key tasks: traditional full-text binary classification (human vs. AI) and the novel task of AI-generated interval detection, facilitated by character-level annotations. We believe LLMTrace will serve as a vital resource for training and evaluating the next generation of more nuanced and practical AI detection models. The project page is available at \href{https://sweetdream779.github.io/LLMTrace-info/}{iitolstykh/LLMTrace}.
- Abstract(参考訳): LLM(Large Language Models)からのヒューマンライクなテキストの普及は、堅牢な検出システムの開発を必要としている。
しかし、進捗は適切なトレーニングデータの欠如によって制限される。既存のデータセットは時代遅れのモデルで生成されることが多く、主に英語であり、混在するAI著者のシナリオに対処できない。
重要なことに、いくつかのデータセットは混合オーサシップに対処するが、テキスト内のAI生成セグメントの正確なローカライズに必要な文字レベルのアノテーションは提供しない。
これらのギャップに対処するために,我々は,AI生成テキスト検出のための大規模バイリンガル(英語とロシア語)コーパスであるLLMTraceを紹介した。
従来のフルテキストバイナリ分類(人間対AI)と、文字レベルのアノテーションによって促進されるAI生成間隔検出の新しいタスクの2つの重要なタスクをサポートするように設計されています。
LLMTraceは、よりニュアンスで実用的なAI検出モデルの次世代をトレーニングし、評価するための重要なリソースになると考えています。
プロジェクトページは \href{https://sweetdream779.github.io/LLMTrace-info/}{iitolstykh/LLMTrace} で公開されている。
関連論文リスト
- mdok of KInIT: Robustly Fine-tuned LLM for Binary and Multiclass AI-Generated Text Detection [3.562613318511706]
自動検出は、人間が機械生成したテキストを表示するのを助けることができる。
このノートは、テキスト分類のための微調整された小さなLLMに基づいて、ロバスト検出における我々のmdokアプローチを記述している。
これは、Voight-Kampff Generative AI Detection 2025のサブタスクの両方に適用され、どちらも優れたパフォーマンス(1位)を提供する。
論文 参考訳(メタデータ) (2025-06-02T14:07:32Z) - SCOPE: A Self-supervised Framework for Improving Faithfulness in Conditional Text Generation [55.61004653386632]
LLM(Large Language Models)は、しばしば幻覚(幻覚)を生成する。
本稿では,不信なサンプルのトレーニングセットを生成するための,新たな自己指導手法を提案する。
そしてトレーニングプロセスを使ってモデルを洗練し、不信なものよりも基礎的なアウトプットの生成を奨励します。
論文 参考訳(メタデータ) (2025-02-19T12:31:58Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic
Features for Distinguishing AI-Generated and Human-Written Texts [0.8437187555622164]
本稿では、意味論と構文という2つの異なる側面からAIが生成するテキスト検出の問題について考察する。
マルチリンガルタスクとモノリンガルタスクの両方において,AI生成テキストと人書きテキストを高い精度で区別できるAIモデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T00:40:17Z) - ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection [6.27025292177391]
ToBlendはトークンレベルのアンサンブルテキスト生成手法であり、現在のAIコンテンツ検出アプローチの堅牢性に挑戦する。
ToBlendは、主要なAIコンテンツ検出手法の性能を著しく低下させる。
論文 参考訳(メタデータ) (2024-02-17T02:25:57Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。