論文の概要: Zero-Shot Detection of LLM-Generated Text via Implicit Reward Model
- arxiv url: http://arxiv.org/abs/2604.21223v1
- Date: Thu, 23 Apr 2026 02:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.259505
- Title: Zero-Shot Detection of LLM-Generated Text via Implicit Reward Model
- Title(参考訳): インシシット・リワードモデルによるLCM生成テキストのゼロショット検出
- Authors: Runheng Liu, Heyan Huang, Xingchen Xiao, Zhijing Wu,
- Abstract要約: インシシット報酬モデルは、一般公開された命令調整モデルとベースモデルから導出することができる。
我々は、DeratorRLベンチマークでIRMを評価し、IRMが優れた検出性能を達成できることを実証した。
- 参考スコア(独自算出の注目度): 37.5974102248718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across various tasks. However, their ability to generate human-like text has raised concerns about potential misuse. This underscores the need for reliable and effective methods to detect LLM-generated text. In this paper, we propose IRM, a novel zero-shot approach that leverages Implicit Reward Models for LLM-generated text detection. Such implicit reward models can be derived from publicly available instruction-tuned and base models. Previous reward-based method relies on preference construction and task-specific fine-tuning. In comparison, IRM requires neither preference collection nor additional training. We evaluate IRM on the DetectRL benchmark and demonstrate that IRM can achieve superior detection performance, outperforms existing zero-shot and supervised methods in LLM-generated text detection.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示している。
しかし、人間のようなテキストを生成する能力は、潜在的な誤用に対する懸念を引き起こしている。
このことは、LCM生成したテキストを検出する信頼性と効果的な方法の必要性を浮き彫りにする。
本稿では,LLM生成テキスト検出にインプリシット・リワードモデルを利用する新しいゼロショット手法であるIRMを提案する。
このような暗黙の報酬モデルは、一般に利用可能な命令調整とベースモデルから導出することができる。
これまでの報酬に基づく手法は、好みの構成とタスク固有の微調整に依存していた。
対照的に、IRMは好みの収集も追加の訓練も必要としない。
我々は、DeratorRLベンチマーク上でIRMを評価し、ILMが優れた検出性能を達成できることを示し、LCM生成したテキスト検出において既存のゼロショットおよび教師付き手法よりも優れていることを示す。
関連論文リスト
- RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - "I know myself better, but not really greatly": How Well Can LLMs Detect and Explain LLM-Generated Texts? [10.454446545249096]
本稿では,2進(人間対LLM生成)と3進分類(未決定クラスを含む)の2つの設定において,現在のLLMの検出と説明能力について検討する。
異なる大きさの6つのオープンソースLCMを評価し、自己検出(LLM)が相互検出(他のLCMからの出力の同定)を一貫して上回っていることを発見した。
本研究は, 自己検出・自己説明における現在のLCMの限界を浮き彫りにして, 過度に適合し, 一般化性を高めるためのさらなる研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
人気のある大規模言語モデル(LLM)を使用して、実世界のアプリケーションとの整合性を向上するデータを生成しました。
我々は,書式,モデルタイプ,攻撃方法,テキストの長さ,および実世界の人間の筆記因子が,さまざまな種類の検知器に与える影響について分析した。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。