論文の概要: Lying Blindly: Bypassing ChatGPT's Safeguards to Generate Hard-to-Detect
Disinformation Claims at Scale
- arxiv url: http://arxiv.org/abs/2402.08467v1
- Date: Tue, 13 Feb 2024 13:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:17:59.678476
- Title: Lying Blindly: Bypassing ChatGPT's Safeguards to Generate Hard-to-Detect
Disinformation Claims at Scale
- Title(参考訳): ChatGPTのセーフガードを乗り越えて、大規模でハード・トゥ・ディテクストの偽情報を生成
- Authors: Freddy Heppell, Mehmet E. Bakir, Kalina Bontcheva
- Abstract要約: 本研究では、ウクライナにおける戦争に関する無条件の主張を発生させるChatGPTの能力について検討する。
IFCN登録ファクトチェッカーによるClaumReviewの戦争関連クレームと、ChatGPTが生成した類似のショートフォームコンテンツを比較した。
われわれは、ChatGPTが現実的でターゲット固有の偽情報を安価、迅速、かつ大規模に生成できることを示し、これらの主張が人間や既存の自動化ツールによって確実に区別できないことを証明した。
- 参考スコア(独自算出の注目度): 0.840486446122478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become more proficient, their misuse in
large-scale viral disinformation campaigns is a growing concern. This study
explores the capability of ChatGPT to generate unconditioned claims about the
war in Ukraine, an event beyond its knowledge cutoff, and evaluates whether
such claims can be differentiated by human readers and automated tools from
human-written ones. We compare war-related claims from ClaimReview, authored by
IFCN-registered fact-checkers, and similar short-form content generated by
ChatGPT. We demonstrate that ChatGPT can produce realistic, target-specific
disinformation cheaply, fast, and at scale, and that these claims cannot be
reliably distinguished by humans or existing automated tools.
- Abstract(参考訳): 大規模言語モデル(LLM)が高度化するにつれ、大規模なウイルス情報拡散キャンペーンにおける誤用が懸念されている。
本研究は,ウクライナにおける戦争に関する無条件クレームを発生させるchatgptの能力について検討し,そのようなクレームが人間の読者と自動ツールによって区別できるかどうかを評価する。
IFCN登録ファクトチェッカーによるClaumReviewの戦争関連クレームと、ChatGPTが生成した同様のショートフォームコンテンツを比較した。
われわれは、ChatGPTが現実的でターゲット固有の偽情報を安価、迅速、かつ大規模に生成できることを示し、これらの主張が人間や既存の自動化ツールによって確実に区別できないことを示した。
関連論文リスト
- 'Quis custodiet ipsos custodes?' Who will watch the watchmen? On Detecting AI-generated peer-reviews [20.030884734361358]
AIが生成したテキストが、ピアレビューを含む科学出版を損なうのではないかという懸念が高まっている。
本稿では,AIが頻繁にトークンを繰り返すことを示唆するTF(Term Frequency)モデルと,ChatGPTが再プロンプト時に同様の出力を生成するという考え方に基づくRR(Review Regeneration)モデルを紹介する。
以上の結果から,提案手法は,他のAIテキスト検出方法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-13T08:06:08Z) - RogueGPT: dis-ethical tuning transforms ChatGPT4 into a Rogue AI in 158 Words [0.0]
本稿では、ChatGPTのデフォルトの倫理的ガードレールが、最新のカスタマイズ機能を使っていかに簡単にバイパスできるかを考察する。
この変化したChatGPTは「RogueGPT」とあだ名され、心配な行動に反応した。
我々の発見は、違法薬物生産、拷問方法、テロリズムといったトピックに関するモデルの知識に関する重要な懸念を提起する。
論文 参考訳(メタデータ) (2024-06-11T18:59:43Z) - Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
ミスシは、誤った推論のための新しい議論理論モデルである。
大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:11:10Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - ChatGPT or Human? Detect and Explain. Explaining Decisions of Machine
Learning Model for Detecting Short ChatGPT-generated Text [2.0378492681344493]
機械学習モデルを効果的に訓練することにより、本来の人間と一見人間(すなわちChatGPT生成)のテキストを正確に区別できるかどうかを検討する。
我々は、ChatGPT生成テキストと人文生成テキストを区別するために訓練されたモデルの背後にある理由を理解するために、説明可能な人工知能フレームワークを使用している。
本研究は,人間生成テキストとChatGPT生成テキストを比較した2つの実験を行い,短いオンラインレビューに焦点を当てた。
論文 参考訳(メタデータ) (2023-01-30T08:06:08Z) - How would Stance Detection Techniques Evolve after the Launch of ChatGPT? [5.756359016880821]
2022年11月30日、新しい訓練済み言語モデルであるchatGPTが発売された。
ChatGPTは、SemEval-2016やP-Stanceといった一般的なデータセットに対して、SOTAまたは同様のパフォーマンスを達成することができる。
ChatGPTは、NLPのスタンス検出タスクにおいて、最高のAIモデルになる可能性がある。
論文 参考訳(メタデータ) (2022-12-30T05:03:15Z) - Automatic Detection of Machine Generated Text: A Critical Survey [19.186417923475144]
テキスト生成モデル(TGM)は、人間の言語スタイルに適したテキストを生成する。
TGMは、偽ニュースや偽商品レビューを自動的に生成することで、敵によって誤用される可能性がある。
TGMが生成したテキストと人間のテキストとを区別できる検出器は、そのような誤用を緩和する上で重要な役割を果たす。
論文 参考訳(メタデータ) (2020-11-02T20:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。