論文の概要: DETree: DEtecting Human-AI Collaborative Texts via Tree-Structured Hierarchical Representation Learning
- arxiv url: http://arxiv.org/abs/2510.17489v1
- Date: Mon, 20 Oct 2025 12:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.45206
- Title: DETree: DEtecting Human-AI Collaborative Texts via Tree-Structured Hierarchical Representation Learning
- Title(参考訳): DETree: 木構造階層表現学習による人間-AI協調テキストの検出
- Authors: Yongxin He, Shan Zhang, Yixuan Cao, Lei Ma, Ping Luo,
- Abstract要約: AIに関連するテキストを検出することは、誤情報、盗作、学術的不正行為と戦うために不可欠である。
現在の手法はこれらのプロセスをかなり粗雑にモデル化し、主に二項分類を用いる。
本稿では,異なるプロセス間の関係を階層的親和性木構造としてモデル化する新しいアプローチであるDETreeを提案する。
- 参考スコア(独自算出の注目度): 31.444137536002955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting AI-involved text is essential for combating misinformation, plagiarism, and academic misconduct. However, AI text generation includes diverse collaborative processes (AI-written text edited by humans, human-written text edited by AI, and AI-generated text refined by other AI), where various or even new LLMs could be involved. Texts generated through these varied processes exhibit complex characteristics, presenting significant challenges for detection. Current methods model these processes rather crudely, primarily employing binary classification (purely human vs. AI-involved) or multi-classification (treating human-AI collaboration as a new class). We observe that representations of texts generated through different processes exhibit inherent clustering relationships. Therefore, we propose DETree, a novel approach that models the relationships among different processes as a Hierarchical Affinity Tree structure, and introduces a specialized loss function that aligns text representations with this tree. To facilitate this learning, we developed RealBench, a comprehensive benchmark dataset that automatically incorporates a wide spectrum of hybrid texts produced through various human-AI collaboration processes. Our method improves performance in hybrid text detection tasks and significantly enhances robustness and generalization in out-of-distribution scenarios, particularly in few-shot learning conditions, further demonstrating the promise of training-based approaches in OOD settings. Our code and dataset are available at https://github.com/heyongxin233/DETree.
- Abstract(参考訳): AIに関連するテキストを検出することは、誤情報、盗作、学術的不正行為と戦うために不可欠である。
しかしながら、AIテキスト生成には、さまざまな協調プロセス(人間によって編集されたAIテキスト、AIによって編集された人間によって編集されたAIテキスト、その他のAIによって編集されたAI生成テキスト)が含まれており、そこでは、様々な、あるいは新しいLLMが関与する可能性がある。
これらの様々なプロセスを通して生成されたテキストは複雑な特徴を示し、検出のための重要な課題を提示する。
現在の手法では、これらのプロセスをかなり粗雑にモデル化しており、主にバイナリ分類(純粋な人間対AI関連)やマルチ分類(新しいクラスとして人間とAIのコラボレーションを扱う)を利用している。
異なるプロセスを通して生成されたテキストの表現は、固有のクラスタリング関係を示す。
そこで我々は,異なるプロセス間の関係を階層的親和性木構造としてモデル化する新しいアプローチDETreeを提案する。
この学習を容易にするために、我々はRealBenchを開発した。RealBenchは、さまざまな人間とAIのコラボレーションプロセスを通じて生成された多様なハイブリッドテキストを自動的に組み込む包括的なベンチマークデータセットである。
提案手法は,ハイブリッドテキスト検出タスクの性能向上と,特に数点の学習条件下での分配シナリオにおけるロバスト性や一般化を著しく向上させ,OOD設定におけるトレーニングベースのアプローチの実現を実証する。
私たちのコードとデータセットはhttps://github.com/heyongxin233/DETree.comで公開されています。
関連論文リスト
- Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models [71.66119575697458]
トークン・バイ・トークン生成のボトルネックを破り、推論効率を向上させることを目的とした並列テキスト生成技術。
既存のアプローチをARベースのパラダイムと非ARベースのパラダイムに分類し、各カテゴリの中核技術について詳細に検討する。
我々は、最近の進歩を強調し、オープンな課題を特定し、並列テキスト生成における将来的な研究の方向性を概説する。
論文 参考訳(メタデータ) (2025-08-12T07:56:04Z) - DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning [24.99797253885887]
このタスクを達成するための鍵は、異なる著者のスタイルを区別することにある、と我々は主張する。
DeTeCtiveは,マルチタスクの補助的,マルチレベルのコントラスト学習フレームワークである。
我々の手法はテキストエンコーダと互換性がある。
論文 参考訳(メタデータ) (2024-10-28T12:34:49Z) - Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text [4.902089836908786]
WhosAIは、与えられた入力テキストが人間かAIによって生成されたかを予測するために設計された3重ネットワークコントラスト学習フレームワークである。
提案するフレームワークは,チューリングテストとオーサリングの両タスクにおいて,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T15:44:56Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing
AI-Generated Text [0.0]
私の研究は、AI生成テキストと人間の文章を正確に区別するために、最先端のハイブリッドディープラーニングモデルを使用することを調査します。
さまざまなソースからAIと人文からなる慎重に選択されたデータセットを利用し、それぞれに指示をタグ付けして、堅牢な方法論を適用しました。
論文 参考訳(メタデータ) (2023-11-27T06:26:53Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。