論文の概要: Self-contradictory Hallucinations of Large Language Models: Evaluation,
Detection and Mitigation
- arxiv url: http://arxiv.org/abs/2305.15852v1
- Date: Thu, 25 May 2023 08:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:15:10.707783
- Title: Self-contradictory Hallucinations of Large Language Models: Evaluation,
Detection and Mitigation
- Title(参考訳): 大規模言語モデルの自己矛盾型幻覚:評価・検出・緩和
- Authors: Niels M\"undler, Jingxuan He, Slobodan Jenko, Martin Vechev
- Abstract要約: 大規模な言語モデル(より大きなLM)は、幻覚された内容のテキストを生成することに感受性がある。
自己矛盾(Self-contradiction)とは、LMが同じ文脈内で2つの矛盾した文を生成することであり、幻覚の重要な形態である。
本稿では,最先端の命令調整型LMの自己コントラクションに関する包括的分析を行う。
- 参考スコア(独自算出の注目度): 4.014524824655106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (large LMs) are susceptible to producing text with
hallucinated content. Self-contradiction, where the LM generates two
contradictory sentences within the same context, is an important form of
hallucination. In this work, we present a comprehensive analysis on
self-contradiction for state-of-the-art, instruction-tuned LMs, including
evaluation, detection, and mitigation. To effectively trigger
self-contradictions, we design a framework that constrains LMs to generate
appropriate sentence pairs. Our evaluation on these sentence pairs reveals that
self-contradictions occur frequently across different LMs for both famous and
lesser-known topics. Next, we prompt the LMs to detect self-contradictions. Our
results indicate that ChatGPT and GPT-4 are able to accurately identify
self-contradictions, while Vicuna-13B struggles to do so. For example, with our
best prompting method, ChatGPT achieves 91.0% precision and 80.5% recall on the
sentence pairs generated by itself. To automatically mitigate
self-contradictions, we develop an iterative algorithm that prompts the LMs to
remove the detected self-contradictions from the generated text. Our algorithm
successfully revises the text such that self-contradictions are significantly
reduced, while maintaining its fluency and informativeness. Importantly, our
entire pipeline of triggering, detecting, and mitigating self-contradictions is
applicable to black-box LMs and does not require any external grounded
knowledge.
- Abstract(参考訳): 大きな言語モデル(大きなlms)は幻覚的な内容を持つテキストを生成しやすい。
自己矛盾(self-contradiction)は、lmが同じ文脈で2つの矛盾した文を生成する場合に、幻覚の重要な形態である。
本稿では, 評価, 検出, 緩和を含む, 最先端, 命令調整されたlmmのための自己コントラストに関する包括的解析を行う。
自己矛盾を効果的に引き起こすために,適切な文ペアを生成するためにLMを制約するフレームワークを設計する。
これらの文対について評価した結果,有名・あまり知られていない話題に対して,異なるLM間で自己矛盾が頻繁に発生することがわかった。
次に、lmsに自己矛盾を検出するよう促す。
その結果,chatgpt と gpt-4 は自己矛盾を正確に識別できるが,vicuna-13b ではそれが難しいことがわかった。
例えば、最高のプロンプト手法によって、chatgptは91.0%の精度と80.5%のリコールを達成します。
自己矛盾を自動的に軽減するために, LMが検出した自己矛盾を生成テキストから除去するよう促す反復アルゴリズムを開発した。
提案アルゴリズムは, 自己矛盾が著しく低減されるようにテキストの修正に成功し, 拡散率と情報性を維持した。
重要なことは、我々の自己矛盾を誘発、検出、緩和するパイプライン全体がブラックボックスのLMに適用でき、外部の基盤知識は不要である。
関連論文リスト
- Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models [63.91178922306669]
大規模言語モデル(LLM)に対するテキスト保護機構であるSilent Guardianを紹介する。
保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。
本研究では,SGがターゲットテキストを種々の構成で効果的に保護し,保護成功率の約100%を達成できることを示す。
論文 参考訳(メタデータ) (2023-12-15T10:30:36Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to
Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。
自然言語処理(NLP)技術を用いた新しい手法を提案する。
与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文 参考訳(メタデータ) (2023-06-13T20:34:55Z) - Towards a Robust Detection of Language Model Generated Text: Is ChatGPT
that Easy to Detect? [0.0]
本稿では,フランス語テキストのためのChatGPT検出器の開発と評価手法を提案する。
提案手法では、英文データセットをフランス語に翻訳し、翻訳されたデータに基づいて分類器を訓練する。
その結果, 検出器はChatGPT生成テキストを効果的に検出でき, ドメイン内設定における基本的な攻撃手法に対する堅牢性も高いことがわかった。
論文 参考訳(メタデータ) (2023-06-09T13:03:53Z) - LLM Paternity Test: Generated Text Detection with LLM Genetic Inheritance [58.63888295471187]
大きな言語モデル(LLM)は、様々な誤用のリスクを負うテキストを生成することができる。
モデル関連テキスト検出手法 LLM Paternity Test (LLM-Pat) を提案する。
高い類似性は、候補テキストが遺伝的特性に似た機械生成であることを示している。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z) - Improving Bot Response Contradiction Detection via Utterance Rewriting [45.55560596440624]
本研究の目的は,すべてのボット発話を書き換えて,先行詞やエリプシを復元することで,矛盾検出を改善することである。
我々はこのモデルがボット発話をより完璧にするために十分な書き直しを生成できることを実証的に実証した。
書き直された発話を使用することで、AUPRとジョイント精度スコア(証拠とともに矛盾を検出する)がそれぞれ6.5%と4.5%向上するなど、矛盾検出性能が大幅に向上する。
論文 参考訳(メタデータ) (2022-07-25T00:54:30Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。