論文の概要: Model-Agnostic Sentiment Distribution Stability Analysis for Robust LLM-Generated Texts Detection
- arxiv url: http://arxiv.org/abs/2508.06913v1
- Date: Sat, 09 Aug 2025 09:55:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.611418
- Title: Model-Agnostic Sentiment Distribution Stability Analysis for Robust LLM-Generated Texts Detection
- Title(参考訳): ロバストLCM生成テキスト検出のためのモデル非依存感度分布安定性解析
- Authors: Siyuan Li, Xi Lin, Guangyan Li, Zehao Liu, Aodu Wulianghai, Li Ding, Jun Wu, Jianhua Li,
- Abstract要約: 大規模言語モデル(LLM)生成テキストを検出するためのモデルに依存しないフレームワークであるSentiDetectを提案する。
本手法は, LLM出力が感情的一貫したパターンを示す傾向を示すのに対して, 人文テキストの方が感情的多様性が高いという経験的観察に動機付けられている。
我々は,Gemini-1.5-Pro,Claude-3,GPT-4-0613,LLaMa-3.3を含む5種類の多種多様なLLMを用いてSentiDetectを評価した。
- 参考スコア(独自算出の注目度): 23.153044933861988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) has resulted in increasingly sophisticated AI-generated content, posing significant challenges in distinguishing LLM-generated text from human-written language. Existing detection methods, primarily based on lexical heuristics or fine-tuned classifiers, often suffer from limited generalizability and are vulnerable to paraphrasing, adversarial perturbations, and cross-domain shifts. In this work, we propose SentiDetect, a model-agnostic framework for detecting LLM-generated text by analyzing the divergence in sentiment distribution stability. Our method is motivated by the empirical observation that LLM outputs tend to exhibit emotionally consistent patterns, whereas human-written texts display greater emotional variability. To capture this phenomenon, we define two complementary metrics: sentiment distribution consistency and sentiment distribution preservation, which quantify stability under sentiment-altering and semantic-preserving transformations. We evaluate SentiDetect on five diverse datasets and a range of advanced LLMs,including Gemini-1.5-Pro, Claude-3, GPT-4-0613, and LLaMa-3.3. Experimental results demonstrate its superiority over state-of-the-art baselines, with over 16% and 11% F1 score improvements on Gemini-1.5-Pro and GPT-4-0613, respectively. Moreover, SentiDetect also shows greater robustness to paraphrasing, adversarial attacks, and text length variations, outperforming existing detectors in challenging scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、AI生成コンテンツはますます洗練され、LLM生成テキストと人文言語を区別する上で大きな課題となっている。
既存の検出法は、主に語彙的ヒューリスティックや微調整の分類法に基づいており、しばしば限定的な一般化性に悩まされ、パラフレージング、対向的摂動、クロスドメインシフトに弱い。
本研究では、感情分布安定性のばらつきを分析し、LLM生成テキストを検出するためのモデルに依存しないフレームワークであるSentiDetectを提案する。
本手法は, LLM出力が感情的一貫したパターンを示す傾向を示すのに対して, 人文テキストの方が感情的多様性が高いという経験的観察に動機付けられている。
この現象を捉えるために、感情分布の一貫性と感情分布の保存という2つの相補的な指標を定義し、感情変換と意味保存変換の下の安定性を定量化する。
我々は,Gemini-1.5-Pro,Claude-3,GPT-4-0613,LLaMa-3.3を含む5種類の多種多様なLLMを用いてSentiDetectを評価した。
その結果,Gemini-1.5-ProとGPT-4-0613でそれぞれ16%,F1スコアが11%向上した。
さらに、SentiDetectは、パラフレーズ、敵攻撃、テキスト長のバリエーションに対してより堅牢性を示し、挑戦的なシナリオにおいて既存の検出器よりも優れています。
関連論文リスト
- Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective [13.739343897204568]
大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
既存の評価手法は、LLM出力の長文応答におけるバイアスと本質的変動をしばしば見落としている。
人口集団間での長文応答の微妙な意味的差異を検知し,LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiScoを提案する。
論文 参考訳(メタデータ) (2025-06-23T18:31:22Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。
統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。
局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文 参考訳(メタデータ) (2024-10-08T14:23:45Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Learning to Rewrite: Generalized LLM-Generated Text Detection [19.9477991969521]
大規模言語モデル(LLM)は、非現実的コンテンツを生成し、大規模に偽情報を拡散する際に大きなリスクをもたらす。
本稿では、未知の領域に例外的な一般化を伴うAI生成テキストを検出するための新しいフレームワークであるLearning2Rewriteを紹介する。
論文 参考訳(メタデータ) (2024-08-08T05:53:39Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。