論文の概要: PhantomHunter: Detecting Unseen Privately-Tuned LLM-Generated Text via Family-Aware Learning
- arxiv url: http://arxiv.org/abs/2506.15683v1
- Date: Wed, 18 Jun 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.785014
- Title: PhantomHunter: Detecting Unseen Privately-Tuned LLM-Generated Text via Family-Aware Learning
- Title(参考訳): PhantomHunter:家族認識学習による未確認のLLMテキストの検出
- Authors: Yuhui Shi, Yehan Yang, Qiang Sheng, Hao Mi, Beizhe Hu, Chaoxi Xu, Juan Cao,
- Abstract要約: 我々は,未確認の私用LPMからテキストを検出することに特化したLLM生成テキスト検出器PhantomHunterを提案する。
家族を意識した学習フレームワークは、個々の特性を記憶するのではなく、基本モデルとそのデリバティブ間で共有される家族レベルの特性をキャプチャする。
LLaMA、Gemma、Mistralファミリーのデータによる実験では、F1スコアが96%を超える7つのベースラインと3つの産業サービスよりも優れていた。
- 参考スコア(独自算出の注目度): 17.367014206366658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the popularity of large language models (LLMs), undesirable societal problems like misinformation production and academic misconduct have been more severe, making LLM-generated text detection now of unprecedented importance. Although existing methods have made remarkable progress, a new challenge posed by text from privately tuned LLMs remains underexplored. Users could easily possess private LLMs by fine-tuning an open-source one with private corpora, resulting in a significant performance drop of existing detectors in practice. To address this issue, we propose PhantomHunter, an LLM-generated text detector specialized for detecting text from unseen, privately-tuned LLMs. Its family-aware learning framework captures family-level traits shared across the base models and their derivatives, instead of memorizing individual characteristics. Experiments on data from LLaMA, Gemma, and Mistral families show its superiority over 7 baselines and 3 industrial services, with F1 scores of over 96%.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及に伴い、誤情報生成や学術的不正行為といった望ましくない社会問題はさらに深刻化しており、LLM生成テキストの検出はこれまでにないほど重要になっている。
既存の手法は目覚ましい進歩を遂げたものの、個人で調整したLLMのテキストによる新たな挑戦は未解決のままである。
オープンソースをプライベートコーパスで微調整することで、ユーザはプライベートLLMを容易に所有できるようになり、結果として既存の検出器の性能が大幅に低下した。
この問題に対処するために,未確認でプライベートチューニングされたLLMからテキストを検出することに特化したLLM生成テキスト検出器であるPhantomHunterを提案する。
家族を意識した学習フレームワークは、個々の特性を記憶するのではなく、基本モデルとそのデリバティブ間で共有される家族レベルの特性をキャプチャする。
LLaMA、Gemma、Mistralファミリーのデータによる実験では、F1スコアが96%を超える7つのベースラインと3つの産業サービスよりも優れていた。
関連論文リスト
- GEM: Empowering LLM for both Embedding Generation and Language Understanding [11.081595808236239]
高品質なテキスト埋め込みを生成するために,GEM(Generative Embedding large Language Model)を提案する。
本手法では,新たな特殊トークンをテキスト本体に挿入し,アテンションマスクを操作することでテキストの要約埋め込みを生成する。
提案手法は,従来のNLP性能を維持しつつ,最先端のテキスト埋め込み機能でLCMを活用できることが示唆された。
論文 参考訳(メタデータ) (2025-06-04T18:02:07Z) - Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究は,プライバシ保証付きアクティベーションを編集するPSA(Private Steering for LLM Alignment)アルゴリズムを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Evaluation of LLM Vulnerabilities to Being Misused for Personalized Disinformation Generation [0.5070610131852027]
大型言語モデル(LLM)は、偽ニュース記事を生成するために効果的に誤用することができる。
本研究は,近年のオープンおよびクローズドLCMの脆弱性評価により,このギャップを埋めるものである。
以上の結果から,より強力な安全フィルターとディファイラの必要性が示された。
論文 参考訳(メタデータ) (2024-12-18T09:48:53Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。