論文の概要: How You Prompt Matters! Even Task-Oriented Constraints in Instructions
Affect LLM-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2311.08369v2
- Date: Wed, 21 Feb 2024 21:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:21:37.495147
- Title: How You Prompt Matters! Even Task-Oriented Constraints in Instructions
Affect LLM-Generated Text Detection
- Title(参考訳): 貴様らはどうだ!
LLMテキスト検出に影響を及ぼす指示におけるタスク指向制約
- Authors: Ryuto Koike, Masahiro Kaneko, Naoaki Okazaki
- Abstract要約: タスク指向の制約 -- 命令に自然に含まれ、検出回避とは無関係な制約 -- でさえ、既存の検出器は検出性能に大きなばらつきを持つ。
実験の結果,命令を複数回生成したり,命令を言い換えたりすることで,命令によって生成されたテキストの標準偏差(SD)が有意に大きい(SDは14.4F1スコアまで)ことがわかった。
- 参考スコア(独自算出の注目度): 44.118047780553006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To combat the misuse of Large Language Models (LLMs), many recent studies
have presented LLM-generated-text detectors with promising performance. When
users instruct LLMs to generate texts, the instruction can include different
constraints depending on the user's need. However, most recent studies do not
cover such diverse instruction patterns when creating datasets for LLM
detection. In this paper, we find that even task-oriented constraints --
constraints that would naturally be included in an instruction and are not
related to detection-evasion -- cause existing detectors to have a large
variance in detection performance. We focus on student essay writing as a
realistic domain and manually create task-oriented constraints based on several
factors for essay quality. Our experiments show that the standard deviation
(SD) of current detector performance on texts generated by an instruction with
such a constraint is significantly larger (up to an SD of 14.4 F1-score) than
that by generating texts multiple times or paraphrasing the instruction.
Furthermore, our analysis indicates that the high instruction-following ability
of LLMs fosters the large impact of such constraints on detection performance.
- Abstract(参考訳): LLM(Large Language Models)の誤用に対処するため,最近の多くの研究でLLM生成テキスト検出器を有望な性能で提案している。
ユーザがLSMにテキストを生成するように指示すると、その命令はユーザーの要求に応じて異なる制約を含むことができる。
しかし、近年の研究では、LLM検出のためのデータセットを作成する際に、このような多様な命令パターンをカバーしていない。
本稿では,タスク指向の制約 – 命令に自然に含まれ,検出回避とは無関係な制約 – でさえ,既存の検出器が検出性能に大きなばらつきをもたらすことを発見した。
学生エッセイの執筆を現実的なドメインとして重視し,エッセイ品質の要因に基づいてタスク指向の制約を手作業で作成する。
このような制約のある命令によって生成されたテキストにおける電流検出性能の標準偏差(sd)は、テキストを複数回生成したり、命令をパラフレージングしたりすることで、(sdが14.4 f1-scoreまで)かなり大きい。
さらに,LLMの高命令追従能力は,そのような制約が検出性能に大きな影響を与えることを示唆している。
関連論文リスト
- TM-TREK at SemEval-2024 Task 8: Towards LLM-Based Automatic Boundary Detection for Human-Machine Mixed Text [0.0]
本稿では,人文と機械生成の混合テキストにおける境界を識別する大規模言語モデルの能力について検討する。
LLMのアンサンブルモデルは,SemEval'24コンペティションタスク8の「Human-Machine Mixed Text Detection」サブタスクにおいて,第1位を獲得した。
論文 参考訳(メタデータ) (2024-04-01T03:54:42Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - LLM-Detector: Improving AI-Generated Chinese Text Detection with
Open-Source LLM Instruction Tuning [4.328134379418151]
既存のAI生成テキスト検出モデルでは、ドメイン内のオーバーフィットが難しくなる。
LLM-Detectorは文書レベルと文レベルのテキスト検出のための新しい手法である。
論文 参考訳(メタデータ) (2024-02-02T05:54:12Z) - Benchmarking Large Language Models on Controllable Generation under
Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。
様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。
命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文 参考訳(メタデータ) (2024-01-01T07:35:31Z) - Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。
その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z) - LLM Paternity Test: Generated Text Detection with LLM Genetic Inheritance [58.63888295471187]
大きな言語モデル(LLM)は、様々な誤用のリスクを負うテキストを生成することができる。
モデル関連テキスト検出手法 LLM Paternity Test (LLM-Pat) を提案する。
高い類似性は、候補テキストが遺伝的特性に似た機械生成であることを示している。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。