Fugu-MT 論文翻訳(概要): LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts

論文の概要: LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts

arxiv url: http://arxiv.org/abs/2409.03291v2
Date: Fri, 27 Sep 2024 16:04:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 23:23:02.505337
Title: LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts
Title（参考訳）: LLM検出器はいまだに現実に足りていない:LLMで作られた短いニュース風ポストを例に
Authors: Henrique Da Silva Gameiro, Andrei Kucharavy, Ljiljana Dolamic,
Abstract要約: 本稿では、中程度に洗練された攻撃者によって生成される短いニュースのような投稿という、情報操作における重要な設定に焦点を当てる。既存のLCM検出器は、ゼロショットでも目的訓練でも、その環境での実際の使用準備が整っていないことを実証する。 LLMをまたいで汎用化された目的学習型検出器を開発し、見知らぬ攻撃を行うことができるが、新しい人文テキストへの一般化には失敗する。
参考スコア（独自算出の注目度）: 7.680851067579922
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the emergence of widely available powerful LLMs, disinformation generated by large Language Models (LLMs) has become a major concern. Historically, LLM detectors have been touted as a solution, but their effectiveness in the real world is still to be proven. In this paper, we focus on an important setting in information operations -- short news-like posts generated by moderately sophisticated attackers. We demonstrate that existing LLM detectors, whether zero-shot or purpose-trained, are not ready for real-world use in that setting. All tested zero-shot detectors perform inconsistently with prior benchmarks and are highly vulnerable to sampling temperature increase, a trivial attack absent from recent benchmarks. A purpose-trained detector generalizing across LLMs and unseen attacks can be developed, but it fails to generalize to new human-written texts. We argue that the former indicates domain-specific benchmarking is needed, while the latter suggests a trade-off between the adversarial evasion resilience and overfitting to the reference human text, with both needing evaluation in benchmarks and currently absent. We believe this suggests a re-consideration of current LLM detector benchmarking approaches and provides a dynamically extensible benchmark to allow it (https://github.com/Reliable-Information-Lab-HEVS/benchmark_llm_texts_detection).
Abstract（参考訳）: 大規模言語モデル (LLM) によって生成された偽情報が, 広く普及する強力なLLMの出現に伴い, 主要な関心事となっている。歴史的に、LSM検出器は解法として評価されてきたが、現実世界での有効性はまだ証明されていない。本稿では,適度に洗練された攻撃者による短いニュースのような投稿を,情報操作における重要な設定に焦点をあてる。既存のLCM検出器は、ゼロショットでも目的訓練でも、その環境での実際の使用準備が整っていないことを実証する。全ての試験されたゼロショット検出器は、以前のベンチマークと矛盾なく動作し、サンプリング温度の増加に対して非常に脆弱である。 LLMをまたいで汎用化された目的学習型検出器を開発し、見知らぬ攻撃を行うことができるが、新しい人文テキストへの一般化には失敗する。前者はドメイン固有のベンチマークが必要であることを示し、後者は、対立回避のレジリエンスと参照する人文への過度な適合のトレードオフを示唆し、どちらもベンチマークでの評価が必要であり、現在は欠落している。これは、現在のLLM検出器のベンチマーク手法を再検討し、動的に拡張可能なベンチマークを提供することを示唆している(https://github.com/Reliable-Information-Lab-HEVS/benchmark_llm_texts_detection)。

関連論文リスト

DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。我々は,現在のSOTA検出器の強度と限界を明らかにした。 DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文参考訳（メタデータ） (2024-10-31T09:01:25Z)
RAFT: Realistic Attacks to Fool Text Detectors [16.749257564123194]
大規模言語モデル(LLM)は、様々なタスクにまたがって顕著な流速を示した。偽情報の拡散など倫理的でない応用が懸念されている。 RAFT:既存のLLM検出器に対する文法エラーのないブラックボックス攻撃について述べる。
論文参考訳（メタデータ） (2024-10-04T17:59:00Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-07T12:57:01Z)
Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文参考訳（メタデータ） (2024-02-21T18:55:20Z)
Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文参考訳（メタデータ） (2023-11-12T17:18:21Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。 1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文参考訳（メタデータ） (2023-05-31T10:08:37Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to Fine-Tune and Hard to Detect with other LLMs [6.295207672539996]
検知器の基準テキストや出力にアクセス可能な攻撃者は、検知器の訓練を完全にフラストレーションできることを示す。我々は、RNN によるテキスト GAN から LLM への変換の誘惑に対して警告する。これらの結果は、生成言語モデルの悪意的使用の検出と防止に重要な意味を持つ。
論文参考訳（メタデータ） (2023-04-18T13:05:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。