論文の概要: Self-contradictory Hallucinations of Large Language Models: Evaluation,
Detection and Mitigation
- arxiv url: http://arxiv.org/abs/2305.15852v2
- Date: Sun, 1 Oct 2023 07:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:32:39.992064
- Title: Self-contradictory Hallucinations of Large Language Models: Evaluation,
Detection and Mitigation
- Title(参考訳): 大規模言語モデルの自己矛盾型幻覚:評価・検出・緩和
- Authors: Niels M\"undler, Jingxuan He, Slobodan Jenko, Martin Vechev
- Abstract要約: 大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。
各種の命令調整型LMの自己コントラクションに関する包括的調査を行う。
本稿では,自己矛盾を効果的に検出・緩和する新しいプロンプトベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.509730499143998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (large LMs) are susceptible to producing text that
contains hallucinated content. An important instance of this problem is
self-contradiction, where the LM generates two contradictory sentences within
the same context. In this work, we present a comprehensive investigation into
self-contradiction for various instruction-tuned LMs, covering evaluation,
detection, and mitigation. Our analysis reveals the prevalence of
self-contradictions when LMs generate text for open-domain topics, e.g., in
17.7% of all sentences produced by ChatGPT. Self-contradiction also complements
retrieval-based methods, as a large portion of them (e.g., 35.8% for ChatGPT)
cannot be verified using Wikipedia. We then propose a novel prompting-based
framework designed to effectively detect and mitigate self-contradictions. Our
detector achieves high accuracy, e.g., around 80% F1 score when prompting
ChatGPT. The mitigation algorithm iteratively refines the generated text to
remove contradictory information while preserving text fluency and
informativeness. Importantly, our entire framework is applicable to black-box
LMs and does not require external grounded knowledge. Our approach is
practically effective and has been released as a push-button tool to benefit
the public, available at https://chatprotect.ai/.
- Abstract(参考訳): 大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。
この問題の重要な例は自己矛盾であり、LMは同じ文脈内で2つの矛盾する文を生成する。
本研究は,各種命令調整型LMの自己コントラクションに関する包括的調査を行い,評価,検出,緩和について述べる。
本分析では,ChatGPTが生成する全文の17.7%において,LMがオープンドメイントピックのテキストを生成する場合の自己矛盾の頻度を明らかにする。
セルフコントラディションは検索ベースの手法を補完するものであり、その大部分が(例えばChatGPTの35.8%)ウィキペディアでは検証できない。
そこで我々は,自己矛盾を効果的に検出し緩和する新しいプロンプトベースフレームワークを提案する。
我々の検出器は、ChatGPTを誘導するときに80%のF1スコアを達成する。
緩和アルゴリズムは、生成したテキストを反復的に洗練し、テキストの流布や報知性を保ちながら矛盾する情報を除去する。
重要なことは、我々のフレームワーク全体がブラックボックスのLMに適用でき、外部の基盤知識を必要としないことである。
私たちのアプローチは事実上効果的で、公開のためにプッシュボタンツールとしてリリースされています。
関連論文リスト
- Authorship Obfuscation in Multilingual Machine-Generated Text Detection [5.847076316223723]
オーサシップ難読化(AO)法は、機械生成テキスト(MGT)検出を回避できる。
我々は、11言語でよく知られた10のAO法と37のMGT検出法をベンチマークした。
その結果, ホモグリフ攻撃が特に成功した全てのテスト言語において, テストされたAOメソッドが検出回避を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-15T17:57:41Z) - AuthentiGPT: Detecting Machine-Generated Text via Black-Box Language
Models Denoising [4.924903495092775]
大きな言語モデル(LLM)は、人間の文章を忠実に模倣するテキストを作成し、潜在的に誤用につながる可能性がある。
本稿では,機械生成テキストと人文テキストを区別する効率的な分類器であるAuthentiGPTを提案する。
ドメイン固有のデータセットの0.918 AUROCスコアで、AuthentiGPTは、他の商用アルゴリズムよりも有効であることを示した。
論文 参考訳(メタデータ) (2023-11-13T19:36:54Z) - Towards a Robust Detection of Language Model Generated Text: Is ChatGPT
that Easy to Detect? [0.0]
本稿では,フランス語テキストのためのChatGPT検出器の開発と評価手法を提案する。
提案手法では、英文データセットをフランス語に翻訳し、翻訳されたデータに基づいて分類器を訓練する。
その結果, 検出器はChatGPT生成テキストを効果的に検出でき, ドメイン内設定における基本的な攻撃手法に対する堅牢性も高いことがわかった。
論文 参考訳(メタデータ) (2023-06-09T13:03:53Z) - GPT Paternity Test: GPT Generated Text Detection with GPT Genetic
Inheritance [89.97709633381172]
GPTパタニティテスト(GPT-Pat)を導入する。
原文と生成された再回答テキストとの類似性を比較することにより、本文が機械生成されているか否かを判定することができる。
提案手法は4つの一般化テストセットで平均94.57%の精度を達成し, 最先端のRoBERTa法を12.34%上回った。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Contrastive Decoding: Open-ended Text Generation as Optimization [153.35961722855686]
信頼性の高い復号法であるコントラスト復号法(CD)を提案する。
これは、より大きなLMの故障がより小さなLMでさらに多いという事実に着想を得たものである。
CDは追加のトレーニングを一切必要とせず、より大きなLMからの復号化よりも高品質なテキストを生成する。
論文 参考訳(メタデータ) (2022-10-27T00:58:21Z) - Automatic Detection of Machine Generated Text: A Critical Survey [19.186417923475144]
テキスト生成モデル(TGM)は、人間の言語スタイルに適したテキストを生成する。
TGMは、偽ニュースや偽商品レビューを自動的に生成することで、敵によって誤用される可能性がある。
TGMが生成したテキストと人間のテキストとを区別できる検出器は、そのような誤用を緩和する上で重要な役割を果たす。
論文 参考訳(メタデータ) (2020-11-02T20:59:26Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。