論文の概要: Lying Blindly: Bypassing ChatGPT's Safeguards to Generate Hard-to-Detect
Disinformation Claims at Scale
- arxiv url: http://arxiv.org/abs/2402.08467v1
- Date: Tue, 13 Feb 2024 13:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:17:59.678476
- Title: Lying Blindly: Bypassing ChatGPT's Safeguards to Generate Hard-to-Detect
Disinformation Claims at Scale
- Title(参考訳): ChatGPTのセーフガードを乗り越えて、大規模でハード・トゥ・ディテクストの偽情報を生成
- Authors: Freddy Heppell, Mehmet E. Bakir, Kalina Bontcheva
- Abstract要約: 本研究では、ウクライナにおける戦争に関する無条件の主張を発生させるChatGPTの能力について検討する。
IFCN登録ファクトチェッカーによるClaumReviewの戦争関連クレームと、ChatGPTが生成した類似のショートフォームコンテンツを比較した。
われわれは、ChatGPTが現実的でターゲット固有の偽情報を安価、迅速、かつ大規模に生成できることを示し、これらの主張が人間や既存の自動化ツールによって確実に区別できないことを証明した。
- 参考スコア(独自算出の注目度): 0.840486446122478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become more proficient, their misuse in
large-scale viral disinformation campaigns is a growing concern. This study
explores the capability of ChatGPT to generate unconditioned claims about the
war in Ukraine, an event beyond its knowledge cutoff, and evaluates whether
such claims can be differentiated by human readers and automated tools from
human-written ones. We compare war-related claims from ClaimReview, authored by
IFCN-registered fact-checkers, and similar short-form content generated by
ChatGPT. We demonstrate that ChatGPT can produce realistic, target-specific
disinformation cheaply, fast, and at scale, and that these claims cannot be
reliably distinguished by humans or existing automated tools.
- Abstract(参考訳): 大規模言語モデル(LLM)が高度化するにつれ、大規模なウイルス情報拡散キャンペーンにおける誤用が懸念されている。
本研究は,ウクライナにおける戦争に関する無条件クレームを発生させるchatgptの能力について検討し,そのようなクレームが人間の読者と自動ツールによって区別できるかどうかを評価する。
IFCN登録ファクトチェッカーによるClaumReviewの戦争関連クレームと、ChatGPTが生成した同様のショートフォームコンテンツを比較した。
われわれは、ChatGPTが現実的でターゲット固有の偽情報を安価、迅速、かつ大規模に生成できることを示し、これらの主張が人間や既存の自動化ツールによって確実に区別できないことを示した。
関連論文リスト
- RogueGPT: dis-ethical tuning transforms ChatGPT4 into a Rogue AI in 158 Words [0.0]
本稿では、ChatGPTのデフォルトの倫理的ガードレールが、最新のカスタマイズ機能を使っていかに簡単にバイパスできるかを考察する。
この変化したChatGPTは「RogueGPT」とあだ名され、心配な行動に反応した。
我々の発見は、違法薬物生産、拷問方法、テロリズムといったトピックに関するモデルの知識に関する重要な懸念を提起する。
論文 参考訳(メタデータ) (2024-06-11T18:59:43Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - Factuality Challenges in the Era of Large Language Models [113.3282633305118]
大規模言語モデル(LLM)は、誤った、誤った、あるいは誤解を招くコンテンツを生成する。
LLMは悪意のあるアプリケーションに利用することができる。
これは、ユーザーを欺く可能性があるという点で、社会に重大な課題をもたらす。
論文 参考訳(メタデータ) (2023-10-08T14:55:02Z) - Fighting Fire with Fire: Can ChatGPT Detect AI-generated Text? [20.37071875344405]
人間の書き起こし対AI生成テキスト検出におけるChatGPTのゼロショット性能を評価する。
我々は,ChatGPTがAI生成テキストや人文テキストの検出に対称的に有効であるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2023-08-02T17:11:37Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - "HOT" ChatGPT: The promise of ChatGPT in detecting and discriminating
hateful, offensive, and toxic comments on social media [2.105577305992576]
生成AIモデルには、有害なコンテンツを理解し、検出する能力がある。
ChatGPTは人間のアノテーションと比較して約80%の精度が得られる。
論文 参考訳(メタデータ) (2023-04-20T19:40:51Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。